論文の概要: Towards Stable and Effective Reinforcement Learning for Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2510.23027v1
- Date: Mon, 27 Oct 2025 05:47:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 19:54:32.590273
- Title: Towards Stable and Effective Reinforcement Learning for Mixture-of-Experts
- Title(参考訳): ミックス・オブ・エクスプロイトのための安定的で効果的な強化学習に向けて
- Authors: Di Zhang, Xun Wu, Shaohan Huang, Yaru Hao, Li Dong, Zewen Chi, Zhifang Sui, Furu Wei,
- Abstract要約: オフ・ポリティクス強化学習(RL)における重要サンプリング重み付けを最適化する新しいルータ認識手法を提案する。
具体的には、ルータロジットによって誘導される再スケーリング戦略を設計し、勾配のばらつきを効果的に低減し、トレーニングのばらつきを軽減する。
実験により, 本手法は収束安定性とMoEモデルの最終的な性能の両方を著しく改善することが示された。
- 参考スコア(独自算出の注目度): 113.0656076371565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in reinforcement learning (RL) have substantially improved the training of large-scale language models, leading to significant gains in generation quality and reasoning ability. However, most existing research focuses on dense models, while RL training for Mixture-of-Experts (MoE) architectures remains underexplored. To address the instability commonly observed in MoE training, we propose a novel router-aware approach to optimize importance sampling (IS) weights in off-policy RL. Specifically, we design a rescaling strategy guided by router logits, which effectively reduces gradient variance and mitigates training divergence. Experimental results demonstrate that our method significantly improves both the convergence stability and the final performance of MoE models, highlighting the potential of RL algorithmic innovations tailored to MoE architectures and providing a promising direction for efficient training of large-scale expert models.
- Abstract(参考訳): 近年の強化学習(RL)の進歩により、大規模言語モデルの訓練が大幅に改善され、生成品質と推論能力が大幅に向上した。
しかし、既存のほとんどの研究は密集モデルに焦点を当てているが、Mixture-of-Experts (MoE)アーキテクチャのRLトレーニングは未定である。
そこで本稿では,MoEトレーニングでよく見られる不安定性に対処するために,重要度サンプリング(IS)重み付けを最適化する新しいルータ認識手法を提案する。
具体的には、ルータロジットによって誘導される再スケーリング戦略を設計し、勾配のばらつきを効果的に低減し、トレーニングのばらつきを軽減する。
実験の結果,提案手法はMoEモデルの収束安定性と最終性能の両方を著しく改善し,MoEアーキテクチャに適したRLアルゴリズム革新の可能性を強調し,大規模エキスパートモデルの効率的なトレーニングのための有望な方向性を提供する。
関連論文リスト
- Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - Robust Evolutionary Multi-Objective Network Architecture Search for Reinforcement Learning (EMNAS-RL) [43.108040967674185]
本稿では,自律運転のための大規模強化学習(AD)において,ニューラルネットワークアーキテクチャを最適化するための進化的多目的ネットワークアーキテクチャ探索(EMNAS)を初めて導入する。
EMNASは遺伝的アルゴリズムを用いてネットワーク設計を自動化し、報酬を高めるように調整し、性能を損なうことなくモデルサイズを減らす。
論文 参考訳(メタデータ) (2025-06-10T07:52:35Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - Model Merging in Pre-training of Large Language Models [39.413435498849445]
本稿では,事前学習過程におけるモデルマージ手法について包括的に検討する。
一定の学習率で訓練されたチェックポイントをマージすることで、大幅な性能向上が達成できることを示す。
我々は、効果的なモデルマージのための実践的な事前トレーニングガイドラインをオープンソースコミュニティに提供する。
論文 参考訳(メタデータ) (2025-05-17T16:53:14Z) - Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。
数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文 参考訳(メタデータ) (2025-04-10T17:15:53Z) - On the Diminishing Returns of Complex Robust RAG Training in the Era of Powerful LLMs [85.688901949146]
複雑な堅牢なトレーニング手法の利点は、言語モデルがより強力になるにつれて減少するのだろうか?
モデルキャパシティが増大するにつれて、高度なトレーニング戦略の限界ロバスト性利益は大幅に減少する。
さらなる調査により、より強力なモデルは、単純な訓練体制下であっても、より優れた信頼性キャリブレーション、クロスデータセットの一般化能力、より効果的な注意パターンを自然に示すことが示される。
論文 参考訳(メタデータ) (2025-02-17T03:34:31Z) - Mixture of Experts in a Mixture of RL settings [15.124698782503248]
ネットワークのパラメータ数を拡大し、休眠ニューロンを減らし、MoEsはDeep Reinforcement Learning(DRL)の性能を向上させることができることを示す。
DRL設定におけるMoEsの非定常性対応能力について,マルチタスクトレーニングによる「増幅された」非定常性を用いた検討を行った。
論文 参考訳(メタデータ) (2024-06-26T15:15:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。