論文の概要: Fast Training of Recurrent Neural Networks with Stationary State Feedbacks
- arxiv url: http://arxiv.org/abs/2503.23104v1
- Date: Sat, 29 Mar 2025 14:45:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:38:04.299839
- Title: Fast Training of Recurrent Neural Networks with Stationary State Feedbacks
- Title(参考訳): 定常状態フィードバックを用いたリカレントニューラルネットワークの高速学習
- Authors: Paul Caillon, Erwan Fagnou, Alexandre Allauzen,
- Abstract要約: リカレントニューラルネットワーク(RNN)は最近、Transformerよりも強力なパフォーマンスと高速な推論を実証している。
BPTTを固定勾配フィードバック機構で置き換える新しい手法を提案する。
- 参考スコア(独自算出の注目度): 48.22082789438538
- License:
- Abstract: Recurrent neural networks (RNNs) have recently demonstrated strong performance and faster inference than Transformers at comparable parameter budgets. However, the recursive gradient computation with the backpropagation through time (or BPTT) algorithm remains the major computational bottleneck. In this work, we propose a novel method that replaces BPTT with a fixed gradient feedback mechanism, yielding an efficient approximation of the exact gradient propagation based on the assumption of time stationarity. Our approach leverages state-space model (SSM) principles to define a structured feedback matrix that directly propagates gradients from future time steps. This formulation bypasses the need for recursive gradient backpropagation, significantly reducing training overhead while preserving the network's ability to capture long-term dependencies. The experiments on language modeling benchmarks exhibit competitive perplexity scores, while significantly reducing the training costs. These promising results suggest that designing a feedback method like an SSM can fully exploit the efficiency advantages of RNNs for many practical applications.
- Abstract(参考訳): リカレントニューラルネットワーク(RNN)は最近、同等のパラメータ予算でTransformerよりも強力なパフォーマンスと高速な推論を実証した。
しかし、時間(BPTT)アルゴリズムによる再帰的勾配計算は、依然として主要な計算ボトルネックである。
本研究では,BPTTを固定勾配フィードバック機構に置き換える手法を提案する。
我々のアプローチは、状態空間モデル(SSM)の原理を利用して、将来の時間ステップから勾配を直接伝播する構造化されたフィードバック行列を定義する。
この定式化は、再帰的な勾配のバックプロパゲーションの必要性を回避し、ネットワークの長期的な依存関係をキャプチャする能力を維持しながら、トレーニングのオーバーヘッドを大幅に削減する。
言語モデリングベンチマークの実験では、トレーニングコストを大幅に削減しながら、競合するパープレキシティスコアが示されている。
これらの有望な結果は、SSMのようなフィードバック手法を設計することで、多くの実用アプリケーションにおいてRNNの効率性を完全に活用できることを示唆している。
関連論文リスト
- Advancing Training Efficiency of Deep Spiking Neural Networks through Rate-based Backpropagation [8.683798989767771]
最近の知見は、ディープスパイキングニューラルネットワーク(SNN)のトレーニングにおいて、レートコーディングが代理段階に基づくバックプロパゲーション・アット・タイム(BPTT)によって取得される情報表現の第一形態であることを明らかにしている。
本稿では、BPTTの複雑さを軽減するために、レートベースの表現を活用するために特別に設計されたトレーニング戦略である、レートベースのバックプロパゲーションを提案する。
提案手法は,SNNの学習におけるメモリと計算要求を減らすために,計算グラフの合理化を図り,平均的ダイナミクスに焦点をあてることで,詳細な時間微分への依存を最小限に抑える。
論文 参考訳(メタデータ) (2024-10-15T10:46:03Z) - Efficient Training of Deep Neural Operator Networks via Randomized Sampling [0.0]
ディープオペレータネットワーク(DeepNet)は、様々な科学的・工学的応用における複雑な力学のリアルタイム予測に成功している。
本稿では,DeepONetのトレーニングを取り入れたランダムサンプリング手法を提案する。
実験の結果,訓練中にトランクネットワーク入力にランダム化を組み込むことで,DeepONetの効率性と堅牢性が向上し,複雑な物理系のモデリングにおけるフレームワークの性能向上に期待できる道筋が得られた。
論文 参考訳(メタデータ) (2024-09-20T07:18:31Z) - Gradient-Free Training of Recurrent Neural Networks using Random Perturbations [1.1742364055094265]
リカレントニューラルネットワーク(RNN)は、チューリング完全性とシーケンシャルな処理能力のために、計算の潜在能力を秘めている。
時間によるバックプロパゲーション(BPTT)は、時間とともにRNNをアンロールすることでバックプロパゲーションアルゴリズムを拡張する。
BPTTは、前方と後方のフェーズをインターリーブし、正確な勾配情報を格納する必要があるなど、大きな欠点に悩まされている。
BPTTと競合するRNNにおける摂動学習に対する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-05-14T21:15:29Z) - Approximated Likelihood Ratio: A Forward-Only and Parallel Framework for Boosting Neural Network Training [30.452060061499523]
本稿では、勾配推定における計算およびメモリ要求を軽減するために、LR法を近似する手法を提案する。
ニューラルネットワークトレーニングにおける近似手法の有効性を実験により実証した。
論文 参考訳(メタデータ) (2024-03-18T23:23:50Z) - Towards Memory- and Time-Efficient Backpropagation for Training Spiking
Neural Networks [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックコンピューティングのためのエネルギー効率の高いモデルである。
本研究では,学習効率を大幅に向上させつつ,高い性能を達成できる空間学習時間(SLTT)法を提案する。
BPTTと比較して, メモリコストとトレーニング時間は, それぞれ70%以上, 50%以上削減されている。
論文 参考訳(メタデータ) (2023-02-28T05:01:01Z) - Online Training Through Time for Spiking Neural Networks [66.7744060103562]
スパイキングニューラルネットワーク(SNN)は、脳にインスパイアされたエネルギー効率のモデルである。
近年のトレーニング手法の進歩により、レイテンシの低い大規模タスクにおいて、ディープSNNを成功させることができた。
本稿では,BPTT から派生した SNN の時間的学習(OTTT)によるオンライントレーニングを提案する。
論文 参考訳(メタデータ) (2022-10-09T07:47:56Z) - Short-Term Memory Optimization in Recurrent Neural Networks by
Autoencoder-based Initialization [79.42778415729475]
線形オートエンコーダを用いた列列の明示的暗記に基づく代替解を提案する。
このような事前学習が、長いシーケンスで難しい分類タスクを解くのにどのように役立つかを示す。
提案手法は, 長周期の復元誤差をはるかに小さくし, 微調整時の勾配伝播を良くすることを示す。
論文 参考訳(メタデータ) (2020-11-05T14:57:16Z) - Variance Reduction for Deep Q-Learning using Stochastic Recursive
Gradient [51.880464915253924]
深層Q-ラーニングアルゴリズムは、過度な分散を伴う勾配推定に苦しむことが多い。
本稿では、SRG-DQNと呼ばれる新しいアルゴリズムを実現するため、深層Q-ラーニングにおける勾配推定を更新するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-25T00:54:20Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。