論文の概要: Beyond Precision: Training-Inference Mismatch is an Optimization Problem and Simple LR Scheduling Fixes It
- arxiv url: http://arxiv.org/abs/2602.01826v1
- Date: Mon, 02 Feb 2026 09:00:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.022276
- Title: Beyond Precision: Training-Inference Mismatch is an Optimization Problem and Simple LR Scheduling Fixes It
- Title(参考訳): 精度を超えて:トレーニング推論ミスマッチは最適化問題であり、単純なLRスケジューリングが修正する
- Authors: Yaxiang Zhang, Yingru Li, Jiacai Liu, Jiawei Xu, Ziniu Li, Qian Liu, Haoyuan Li,
- Abstract要約: トレーニングが進むにつれて,勾配雑音やトレーニング推論ミスマッチが増大することが明らかとなった。
更新サイズを小さくすることで、ミスマッチを効果的に抑制できることがわかった。
本稿では,学習率スケジューラという,シンプルで効果的な手法を提案する。
- 参考スコア(独自算出の注目度): 24.70923739848818
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) for training Large Language Models is notoriously unstable. While recent studies attribute this to "training inference mismatch stemming" from inconsistent hybrid engines, standard remedies, such as Importance Sampling, might fail during extended training runs. In this work, we analyze this instability through the lens of optimization, demonstrating that gradient noise and training-inference mismatch escalate in tandem as training progresses. Meanwhile, we find that the mismatch can be effectively suppressed by shrinking the update size. Taken together, we deduce that the mismatch is not merely a static numerical discrepancy, but a dynamic failure coupled with the model's optimization. Based on this insight, we propose a simple yet effective solution: a specialized Learning Rate (LR) scheduler. Instead of pre-defined decay schedule in traditional LR scheduler, our method dynamically triggers LR decay based on response length, which we identify as a reliable early-warning signal for impending instability. Empirical evidence suggests that by reducing the learning rate as gradient noise rises, we can consistently stabilize RL training and keep the training-inference mismatch at a safe level.
- Abstract(参考訳): 大規模言語モデルのトレーニングのための強化学習(RL)は、非常に不安定である。
最近の研究では、矛盾するハイブリッドエンジンから生じる「トレーニング推論ミスマッチ」が原因とされているが、Importance Smplingのような標準的な治療法は、延長訓練中に失敗する可能性がある。
本研究では、この不安定性を最適化レンズを用いて解析し、トレーニングが進むにつれて勾配ノイズとトレーニング推論ミスマッチが増大することを示した。
一方,更新サイズを小さくすることで,ミスマッチを効果的に抑制できることがわかった。
まとめると、ミスマッチは単なる静的な数値的な相違ではなく、モデルの最適化と結合した動的障害であると推定する。
この知見に基づいて、我々は、特殊な学習率(LR)スケジューラという、シンプルで効果的なソリューションを提案する。
従来のLRスケジューラにおける事前定義された減衰スケジュールの代わりに、応答長に基づいてLR減衰を動的にトリガーし、不安定を抑えるための信頼性の高い早期警戒信号として同定する。
実験的な証拠は、勾配ノイズの増加に伴って学習率を低下させることで、RLトレーニングを安定させ、トレーニングと推論のミスマッチを安全なレベルに保つことができることを示唆している。
関連論文リスト
- Stabilizing Reinforcement Learning with LLMs: Formulation and Practices [61.361819972410046]
本稿では,REINFORCEなどの政策勾配法において,真のシーケンスレベルの報酬を代用トークンレベルの目的によって最適化できる理由と条件を示す。
この洞察は、RLトレーニングの安定化において、広く採用されているいくつかのテクニックの重要な役割について、原則化された説明を提供する。
論文 参考訳(メタデータ) (2025-12-01T07:45:39Z) - How Learning Rate Decay Wastes Your Best Data in Curriculum-Based LLM Pretraining [22.50461083222824]
高品質なデータを活用するための自然なアプローチはカリキュラムベースの事前トレーニングであり、品質基準によって決定された品質の上位順にソートされたデータに基づいてモデルを訓練する。
この研究は、これらの手法を制約する重要な要因、すなわち、上昇するデータ品質の順序と減衰する学習率のスケジュールの不整合性を特定する。
論文 参考訳(メタデータ) (2025-11-24T09:03:49Z) - Dynamic Learning Rate for Deep Reinforcement Learning: A Bandit Approach [2.743898388459522]
深層強化学習(RL)では、学習速度は安定性と性能の両方に重大な影響を及ぼすが、環境と政策が進化するにつれて、トレーニング中に最適な価値がシフトする。
標準崩壊スケジューラは単調収束を仮定し、しばしばこれらのダイナミクスと不一致し、早めまたは遅れた調整をもたらす。
LRRLは、学習手順ではなく、政策性能に基づいて動的に学習率を選択するメタ学習手法である。
論文 参考訳(メタデータ) (2024-10-16T14:15:28Z) - Robust Deep Reinforcement Learning with Adaptive Adversarial Perturbations in Action Space [3.639580365066386]
本稿では,トレーニング中の対向摂動の影響を調整するための適応的対向係数フレームワークを提案する。
提案手法の特長は,実世界のアプリケーションに簡単にデプロイでき,シミュレータに事前にアクセスする必要がなくなることである。
MuJoCoの実験から,本手法はトレーニングの安定性を向上し,異なるテスト環境に移行する際の堅牢なポリシを学習できることが示された。
論文 参考訳(メタデータ) (2024-05-20T12:31:11Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - On the Weight Dynamics of Deep Normalized Networks [5.250288418639077]
ディープニューラルネットワークの層間の効果的な学習率(ELR)の相違は、トレーニング容易性に悪影響を及ぼす可能性がある。
正規化層を持つネットワークの重み力学をモデル化することにより、これらの相違が時間とともにどのように進化するかを定式化する。
一定の学習率のトレーニングでは,初期勾配の爆発にもかかわらず,ELR比が1に収束することが証明された。
論文 参考訳(メタデータ) (2023-06-01T14:09:52Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。