論文の概要: Scaling Recurrent Neural Networks to a Billion Parameters with Zero-Order Optimization
- arxiv url: http://arxiv.org/abs/2505.17852v1
- Date: Fri, 23 May 2025 13:04:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.086816
- Title: Scaling Recurrent Neural Networks to a Billion Parameters with Zero-Order Optimization
- Title(参考訳): ゼロ次最適化による10億パラメータへのリカレントニューラルネットワークのスケーリング
- Authors: Francois Chaubard, Mykel Kochenderfer,
- Abstract要約: FLOPとGPUメモリにおけるRNNのスケール定数は、コンテキスト長が増加する。
変換器はFLOPで線形に、そしてせいぜい、生成中のメモリで線形にスケールする。
標準最適化手法は時間によるバックプロパゲーションに依存しているため、長い文脈での大規模RNNの訓練は実用的ではない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: During inference, Recurrent Neural Networks (RNNs) scale constant in both FLOPs and GPU memory with increasing context length, as they compress all prior tokens into a fixed-size memory. In contrast, transformers scale linearly in FLOPs and, at best, linearly in memory during generation, since they must attend to all previous tokens explicitly. Despite this inference-time advantage, training large RNNs on long contexts remains impractical because standard optimization methods depend on Backpropagation Through Time (BPTT). BPTT requires retention of all intermediate activations during the forward pass, causing memory usage to scale linearly with both context length and model size. In this paper, we show that Zero-Order Optimization (ZOO) methods such as Random-vector Gradient Estimation (RGE) can successfully replace BPTT to train RNNs with convergence rates that match, or exceed BPTT by up to 19 fold, while using orders of magnitude less memory and cost, as the model remains in inference mode throughout training. We further demonstrate that Central-Difference RGE (CD-RGE) corresponds to optimizing a smoothed surrogate loss, inherently regularizing training and improving generalization. Our method matches or outperforms BPTT across three settings: (1) overfitting, (2) transduction, and (3) language modeling. Across all tasks, with sufficient perturbations, our models generalize as well as or better than those trained with BPTT, often in fewer steps. Despite the need for more forward passes per step, we can surpass BPTT wall-clock time per step using recent advancements such as FlashRNN and distributed inference.
- Abstract(参考訳): 推論中、リカレントニューラルネットワーク(RNN)は、すべての前のトークンを固定サイズのメモリに圧縮することにより、コンテキスト長が増加するFLOPとGPUメモリの両方で定数をスケールする。
対照的に、トランスフォーマーはFLOPで線形に、そしてせいぜい、生成中に線形にスケールする。
この推論時間の優位性にもかかわらず、標準最適化手法は時間によるバックプロパゲーション(BPTT)に依存しているため、長いコンテキストでの大規模なRNNのトレーニングは実用的ではない。
BPTTはフォワードパス中のすべての中間アクティベーションの保持を必要とし、メモリ使用量はコンテキスト長とモデルサイズの両方で線形にスケールする。
本稿では,ランダムベクトル勾配推定(RGE)のようなゼロ次最適化(ZOO)手法が,BPTTを最大19倍のコンバージェンスレートでトレーニングできることを示す。
さらに、中央差分RGE(CD-RGE)は、スムーズなサロゲート損失を最適化し、本質的にトレーニングを正則化し、一般化を改善することを実証した。
提案手法は,(1)オーバーフィッティング,(2)トランスダクション,(3)言語モデリングの3つの設定でBPTTに適合または優れる。
十分な摂動を伴うすべてのタスクにおいて、私たちのモデルはBPTTで訓練されたタスクよりも、より少ないステップで一般化されます。
FlashRNNや分散推論といった最近の進歩を使って、ステップ毎により多くのフォワードパスを必要とするが、ステップ毎にBPTTウォールタイムを越えられる。
関連論文リスト
- Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Towards Memory- and Time-Efficient Backpropagation for Training Spiking
Neural Networks [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックコンピューティングのためのエネルギー効率の高いモデルである。
本研究では,学習効率を大幅に向上させつつ,高い性能を達成できる空間学習時間(SLTT)法を提案する。
BPTTと比較して, メモリコストとトレーニング時間は, それぞれ70%以上, 50%以上削減されている。
論文 参考訳(メタデータ) (2023-02-28T05:01:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。