論文の概要: Do We Need Adam? Surprisingly Strong and Sparse Reinforcement Learning with SGD in LLMs
- arxiv url: http://arxiv.org/abs/2602.07729v1
- Date: Sat, 07 Feb 2026 23:25:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.778823
- Title: Do We Need Adam? Surprisingly Strong and Sparse Reinforcement Learning with SGD in LLMs
- Title(参考訳): アダムは必要か? LLMにおけるSGDによる突然の強靭な強化学習
- Authors: Sagnik Mukherjee, Lifan Yuan, Pavan Jayasinha, Dilek Hakkani-Tür, Hao Peng,
- Abstract要約: 本研究では,強化学習が従来よりもパラメータ効率が高いことを示す。
実験により、よりメモリ効率のよいSGDが一致し、LLMのRLにおいてAdamWより優れることが示された。
- 参考スコア(独自算出の注目度): 21.242959630751663
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Reinforcement learning (RL), particularly RL from verifiable reward (RLVR), has become a crucial phase of training large language models (LLMs) and a key focus of current scaling efforts. However, optimization practices in RL largely follow those of next-token prediction stages (e.g., pretraining and supervised fine-tuning), despite fundamental differences between RL and these stages highlighted by recent work. One such practice is the use of the AdamW optimizer, which is widely adopted for training large-scale transformers despite its high memory overhead. Our analysis shows that both momentum and adaptive learning rates in AdamW are less influential in RL than in SFT, leading us to hypothesize that RL benefits less from Adam-style per-parameter adaptive learning rates and momentum. Confirming this hypothesis, our experiments demonstrate that the substantially more memory-efficient SGD, which is known to perform poorly in supervised learning of large-scale transformers, matches or even outperforms AdamW in RL for LLMs. Remarkably, full fine-tuning with SGD updates fewer than 0.02% of model parameters without any sparsity-promoting regularization, more than 1000 times fewer than AdamW. Our analysis offers potential reasons for this update sparsity. These findings provide new insights into the optimization dynamics of RL in LLMs and show that RL can be substantially more parameter-efficient than previously recognized.
- Abstract(参考訳): 強化学習(RL)、特に検証可能な報酬(RLVR)からのRLは、大規模言語モデル(LLM)のトレーニングにおいて重要なフェーズとなり、現在のスケーリングの取り組みの重要な焦点となっている。
しかし、RLにおける最適化の実践は、RLとこれらの段階の根本的な違いが最近の研究で強調されているにもかかわらず、主に次のトーケン予測段階(例えば、事前学習と教師付き微調整)に従う。
このようなプラクティスのひとつにAdamWオプティマイザがある。これはメモリオーバーヘッドが高いにもかかわらず、大規模なトランスフォーマーのトレーニングに広く採用されている。
分析の結果、AdamWの運動量と適応学習率はSFTよりもRLに影響を及ぼさないことが示され、RLはパラメータごとの適応学習率と運動量から恩恵を受けないという仮説が導かれた。
この仮説を裏付ける実験により、大規模トランスフォーマーの教師あり学習、マッチ、さらにはLLMのRLにおけるAdamWよりもはるかに高いメモリ効率のSGDが優れていることを示した。
注目すべきは、SGDをフルチューニングするモデルパラメータの0.02%未満で、スパーサリティをプロモートする正規化が不要で、AdamWの1000倍以上も少ないことだ。
私たちの分析は、この更新が不適切である可能性を秘めている。
これらの結果は、LLMにおけるRLの最適化力学に関する新たな知見を与え、RLが以前認識されていたよりもかなりパラメータ効率が高いことを示す。
関連論文リスト
- Tailored Primitive Initialization is the Secret Key to Reinforcement Learning [61.29280885291581]
強化学習(RL)は、大規模言語モデル(LLM)の推論能力を高めるための強力なパラダイムとして登場した。
多様な,高品質な推論プリミティブによるLLMの初期化は,安定かつサンプル効率のよいRLトレーニングを実現する上で不可欠である,と我々は主張する。
そこで我々は,新しい推論プリミティブを自動的に発見し,キュレートする微調整パイプラインであるTailorを提案する。
論文 参考訳(メタデータ) (2025-11-16T03:12:40Z) - On Predictability of Reinforcement Learning Dynamics for Large Language Models [20.320268628019047]
本研究は,大言語モデルにおけるRLによるパラメータ更新の2つの基本特性を同定する。
短期早期訓練ウィンドウを用いて最終パラメータ更新を補間するプラグインアクセラレーションフレームワークであるAlphaRLを提案する。
論文 参考訳(メタデータ) (2025-10-01T06:13:50Z) - Reinforcement Learning on Pre-Training Data [55.570379963147424]
我々は,大規模言語モデル(LLM)を最適化するための新しい訓練時間スケーリングパラダイムである,事前学習データ(R)の強化学習を紹介する。
Rは、有意義な軌道を自律的に探索し、事前学習データから学び、強化学習(RL)を通してその能力を向上させる。
複数のモデルにわたる一般領域および数学的推論ベンチマークの広範な実験は、Rの有効性を検証した。
論文 参考訳(メタデータ) (2025-09-23T17:10:40Z) - SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning [81.7764584515496]
VLA(Vision-Language-Action)モデルは、ロボット操作の強力なパラダイムとして登場した。
これらのモデルは2つの根本的な課題に直面している。
VLAモデルに適した効率的な強化学習フレームワークであるSimpleVLA-RLを紹介する。
論文 参考訳(メタデータ) (2025-09-11T17:59:17Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - RAST: Reasoning Activation in LLMs via Small-model Transfer [33.32587030836428]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力向上のための強力なアプローチとなっている。
大規模にRLを適用することは、潜在的にリソース集約であり、複数のモデルコピーと広範なGPUワークロードを必要とします。
本稿では、RL学習モデルからRL学習モデルからより大規模なモデルにRL誘導確率調整を注入することにより、推論挙動を伝達する簡易かつ効果的なRASTを提案する。
論文 参考訳(メタデータ) (2025-05-30T17:57:08Z) - LIMR: Less is More for RL Scaling [25.477841726836836]
学習影響測定(Learning Impact Measurement, LIM)は, 学習サンプルを評価・優先順位付けする自動手法である。
提案手法は,1,389個のサンプルと8,523個のサンプルの完全なデータセットとを比較して,同等あるいは優れた性能を実現する。
再現可能な研究と今後のイノベーションのために、LIMRをオープンソース化しています。LIMRの実装、トレーニングと評価コード、キュレートされたデータセット、トレーニングされたモデルなどです。
論文 参考訳(メタデータ) (2025-02-17T15:13:29Z) - Adam on Local Time: Addressing Nonstationarity in RL with Relative Adam Timesteps [65.64965527170156]
我々は、強化学習に広く用いられているAdam optimiserに適応する。
我々は、Adam-Relがエポック内で局所的なタイムステップを使用しており、基本的にターゲット変更後のAdamのタイムステップを0にリセットしていることを示す。
次に,RLにおいて勾配ノルムの増加が生じることを示すとともに,理論モデルと観測データとの差について検討する。
論文 参考訳(メタデータ) (2024-12-22T18:01:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。