Fugu-MT 論文翻訳(概要): Scaling Recurrent Neural Networks to a Billion Parameters with Zero-Order Optimization

論文の概要: Scaling Recurrent Neural Networks to a Billion Parameters with Zero-Order Optimization

arxiv url: http://arxiv.org/abs/2505.17852v1
Date: Fri, 23 May 2025 13:04:06 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-26 18:08:34.086816
Title: Scaling Recurrent Neural Networks to a Billion Parameters with Zero-Order Optimization
Title（参考訳）: ゼロ次最適化による10億パラメータへのリカレントニューラルネットワークのスケーリング
Authors: Francois Chaubard, Mykel Kochenderfer,
Abstract要約: FLOPとGPUメモリにおけるRNNのスケール定数は、コンテキスト長が増加する。変換器はFLOPで線形に、そしてせいぜい、生成中のメモリで線形にスケールする。標準最適化手法は時間によるバックプロパゲーションに依存しているため、長い文脈での大規模RNNの訓練は実用的ではない。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: During inference, Recurrent Neural Networks (RNNs) scale constant in both FLOPs and GPU memory with increasing context length, as they compress all prior tokens into a fixed-size memory. In contrast, transformers scale linearly in FLOPs and, at best, linearly in memory during generation, since they must attend to all previous tokens explicitly. Despite this inference-time advantage, training large RNNs on long contexts remains impractical because standard optimization methods depend on Backpropagation Through Time (BPTT). BPTT requires retention of all intermediate activations during the forward pass, causing memory usage to scale linearly with both context length and model size. In this paper, we show that Zero-Order Optimization (ZOO) methods such as Random-vector Gradient Estimation (RGE) can successfully replace BPTT to train RNNs with convergence rates that match, or exceed BPTT by up to 19 fold, while using orders of magnitude less memory and cost, as the model remains in inference mode throughout training. We further demonstrate that Central-Difference RGE (CD-RGE) corresponds to optimizing a smoothed surrogate loss, inherently regularizing training and improving generalization. Our method matches or outperforms BPTT across three settings: (1) overfitting, (2) transduction, and (3) language modeling. Across all tasks, with sufficient perturbations, our models generalize as well as or better than those trained with BPTT, often in fewer steps. Despite the need for more forward passes per step, we can surpass BPTT wall-clock time per step using recent advancements such as FlashRNN and distributed inference.
Abstract（参考訳）: 推論中、リカレントニューラルネットワーク(RNN)は、すべての前のトークンを固定サイズのメモリに圧縮することにより、コンテキスト長が増加するFLOPとGPUメモリの両方で定数をスケールする。対照的に、トランスフォーマーはFLOPで線形に、そしてせいぜい、生成中に線形にスケールする。この推論時間の優位性にもかかわらず、標準最適化手法は時間によるバックプロパゲーション(BPTT)に依存しているため、長いコンテキストでの大規模なRNNのトレーニングは実用的ではない。 BPTTはフォワードパス中のすべての中間アクティベーションの保持を必要とし、メモリ使用量はコンテキスト長とモデルサイズの両方で線形にスケールする。本稿では,ランダムベクトル勾配推定(RGE)のようなゼロ次最適化(ZOO)手法が,BPTTを最大19倍のコンバージェンスレートでトレーニングできることを示す。さらに、中央差分RGE(CD-RGE)は、スムーズなサロゲート損失を最適化し、本質的にトレーニングを正則化し、一般化を改善することを実証した。提案手法は,(1)オーバーフィッティング,(2)トランスダクション,(3)言語モデリングの3つの設定でBPTTに適合または優れる。十分な摂動を伴うすべてのタスクにおいて、私たちのモデルはBPTTで訓練されたタスクよりも、より少ないステップで一般化されます。 FlashRNNや分散推論といった最近の進歩を使って、ステップ毎により多くのフォワードパスを必要とするが、ステップ毎にBPTTウォールタイムを越えられる。

関連論文リスト

Convergence Analysis of Real-time Recurrent Learning (RTRL) for a class of Recurrent Neural Networks [0.0]
Real-time Recurrent Learning (RTRL) はオンライン最適化アルゴリズムである。これは、データシーケンス上の真の勾配損失を、シーケンスタイムステップの数として追従する。 RTRLの潜在的な応用分野の1つは、財務データの分析である。
論文参考訳（メタデータ） (2025-01-14T11:46:36Z)
Optimal Gradient Checkpointing for Sparse and Recurrent Architectures using Off-Chip Memory [0.8321953606016751]
本稿では,スパースRNNとスパイキングニューラルネットワークの一般クラスに適したメモリ効率の高い勾配チェックポイント戦略を提案する。再計算のオーバーヘッドを最小限に抑えながら、ローカルメモリリソースの使用を最適化し、Double Checkpointingが最も効果的な方法であることが判明した。
論文参考訳（メタデータ） (2024-12-16T14:23:31Z)
UIO-LLMs: Unbiased Incremental Optimization for Long-Context LLMs [111.12010207132204]
UIO-LLMsは、長いコンテキスト設定下でのメモリ拡張トランスフォーマーの漸進的な最適化手法である。本稿では,TBPTTアルゴリズムを用いて学習過程を改良する。 UIO-LLMは、Llama2-7b-chatのコンテキストウィンドウを4Kから100Kトークンに、2%の追加パラメータで拡張するなど、長いコンテキストを扱うことに成功した。
論文参考訳（メタデータ） (2024-06-26T08:44:36Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文参考訳（メタデータ） (2023-05-22T13:57:41Z)
Towards Memory- and Time-Efficient Backpropagation for Training Spiking Neural Networks [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックコンピューティングのためのエネルギー効率の高いモデルである。本研究では,学習効率を大幅に向上させつつ,高い性能を達成できる空間学習時間(SLTT)法を提案する。 BPTTと比較して, メモリコストとトレーニング時間は, それぞれ70%以上, 50%以上削減されている。
論文参考訳（メタデータ） (2023-02-28T05:01:01Z)
Online Training Through Time for Spiking Neural Networks [66.7744060103562]
スパイキングニューラルネットワーク(SNN)は、脳にインスパイアされたエネルギー効率のモデルである。近年のトレーニング手法の進歩により、レイテンシの低い大規模タスクにおいて、ディープSNNを成功させることができた。本稿では,BPTT から派生した SNN の時間的学習(OTTT)によるオンライントレーニングを提案する。
論文参考訳（メタデータ） (2022-10-09T07:47:56Z)
GLEAM: Greedy Learning for Large-Scale Accelerated MRI Reconstruction [50.248694764703714]
アンロールされたニューラルネットワークは、最近最先端の加速MRI再構成を達成した。これらのネットワークは、物理ベースの一貫性とニューラルネットワークベースの正規化を交互に組み合わせることで、反復最適化アルゴリズムをアンロールする。我々は,高次元画像設定のための効率的なトレーニング戦略である加速度MRI再構成のためのグレディ・ラーニングを提案する。
論文参考訳（メタデータ） (2022-07-18T06:01:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。