論文の概要: Stabilizing MoE Reinforcement Learning by Aligning Training and Inference Routers
- arxiv url: http://arxiv.org/abs/2510.11370v1
- Date: Mon, 13 Oct 2025 13:11:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.370667
- Title: Stabilizing MoE Reinforcement Learning by Aligning Training and Inference Routers
- Title(参考訳): トレーニングと推論ルータの調整によるMoE強化学習の安定化
- Authors: Wenhan Ma, Hailin Zhang, Liang Zhao, Yifan Song, Yudong Wang, Zhifang Sui, Fuli Luo,
- Abstract要約: 我々は,MoEモデルのトレーニングと推論の整合性を解析し,ルーティング行動における顕著な相違点を同定する。
本稿では、推論エンジンからのルーティング分布を記録し、トレーニング中にリプレイするRollout Replay Routing (R3)を提案する。
R3は、トレーニング速度を損なうことなく、トレーニング推論ポリシーKLのばらつきを著しく低減し、極端な不一致を緩和する。
- 参考スコア(独自算出の注目度): 33.18639109838351
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has emerged as a crucial approach for enhancing the capabilities of large language models. However, in Mixture-of-Experts (MoE) models, the routing mechanism often introduces instability, even leading to catastrophic RL training collapse. We analyze the training-inference consistency of MoE models and identify a notable discrepancy in routing behaviors between the two phases. Moreover, even under identical conditions, the routing framework can yield divergent expert selections across repeated forward passes. To address this foundational inconsistency, we propose Rollout Routing Replay (R3), a method that records routing distributions from the inference engine and replays them during training. R3 significantly reduces training-inference policy KL divergence and mitigates extreme discrepancies without compromising training speed. Extensive experiments on various settings confirm that R3 succeeds in stabilizing RL training, preventing collapse and outperforming methods such as GSPO and TIS. We believe this work can offer a new solution for stabilizing RL in MoE models.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は, 大規模言語モデルの能力向上のための重要なアプローチである。
しかし、Mixture-of-Experts (MoE) モデルでは、ルーティング機構はしばしば不安定を引き起こし、破滅的なRLトレーニングの崩壊に至る。
我々は,MoEモデルのトレーニングと推論の整合性を解析し,2つのフェーズ間のルーティング動作における顕著な相違点を同定する。
さらに、同じ条件下であっても、ルーティングフレームワークは、繰り返しフォワードパス間で異なる専門家選択を得ることができる。
この基本的な矛盾に対処するために、推論エンジンからルーティング分布を記録し、トレーニング中にリプレイするRollout Routing Replay (R3)を提案する。
R3は、トレーニング速度を損なうことなく、トレーニング推論ポリシーKLのばらつきを著しく低減し、極端な不一致を緩和する。
様々な環境での大規模な実験により、R3がRLトレーニングの安定化に成功し、GSPOやTISのような崩壊や性能向上の方法が妨げられることが確認された。
この作業は、MoEモデルでRLを安定化するための新しいソリューションを提供することができると信じています。
関連論文リスト
- Adversarial Diffusion for Robust Reinforcement Learning [46.44328012099217]
我々はロバスト強化学習(AD-RRL)のための逆拡散を導入する。
AD-RRLは拡散過程を導出し、トレーニング中に最悪の場合の軌跡を生成し、累積リターンの条件値(CVaR)を効果的に最適化する。
標準ベンチマークにおける実験結果から、AD-RRLは既存のロバストなRL法と比較して、優れたロバスト性と性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-09-28T12:34:35Z) - Balanced Actor Initialization: Stable RLHF Training of Distillation-Based Reasoning Models [27.0496567592082]
大規模言語モデルにおけるアライメントと推論能力の開発は目覚ましい進歩を遂げた。
RLHFを蒸留訓練モデルに適用する第3のパラダイムは、重大な課題を示す。
本稿では,2段階重み付きモデルマージ手法であるBa balanced Actor Initialization (BAI)を提案する。
論文 参考訳(メタデータ) (2025-08-30T01:53:25Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning [125.96848846966087]
対話型エージェントとしての大規模言語モデル(LLM)のトレーニングには,ユニークな課題がある。
強化学習は静的タスクの進行を可能にする一方で、マルチターンエージェントRLトレーニングは未探索のままである。
本稿では、軌道レベルのエージェントRLのための一般的なフレームワークであるStarPOを提案し、LLMエージェントのトレーニングと評価のためのモジュールシステムであるRAGENを紹介する。
論文 参考訳(メタデータ) (2025-04-24T17:57:08Z) - Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。
数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文 参考訳(メタデータ) (2025-04-10T17:15:53Z) - Avoiding mode collapse in diffusion models fine-tuned with reinforcement learning [0.0]
強化学習(RL)による微調整基礎モデルは、下流の目標に整合する上で有望であることが証明されている。
拡散モデル (DM) の階層的性質を生かし, 各エポックでRL法で動的に訓練する。
HRFで訓練したモデルは、下流タスクにおける多様性の保存性を向上し、微調整の堅牢性を高め、平均報酬を損なうことなく達成できることが示される。
論文 参考訳(メタデータ) (2024-10-10T19:06:23Z) - Symmetric Reinforcement Learning Loss for Robust Learning on Diverse Tasks and Model Scales [13.818149654692863]
強化学習(RL)トレーニングは、移動目標や高勾配分散などの要因により本質的に不安定である。
本研究では,雑音データに対する教師付き学習から逆クロスエントロピー(RCE)を適用し,対称的なRL損失を定義することにより,RLトレーニングの安定性を向上させる。
論文 参考訳(メタデータ) (2024-05-27T19:28:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。