論文の概要: PR2: Predictive Routing Replay for MoE-Based LLM Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2606.00395v2
- Date: Tue, 02 Jun 2026 03:28:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 18:57:50.350586
- Title: PR2: Predictive Routing Replay for MoE-Based LLM Reinforcement Learning
- Title(参考訳): PR2: MoE ベースの LLM 強化学習のための予測ルーティングリプレイ
- Authors: Daize Dong, Junlin Chen, Haolong Jia, Jiang Liu, Jiawei Wu, Huanwei Di, Jialian Wu, Zhengzhong Liu, Zicheng Liu, Emad Barsoum, Dimitris N. Metaxas, Hongyi Wang,
- Abstract要約: 本稿では,各ルータを軽量な進化予測器で拡張し,短水平ルータの進化を予測できる予測ルーティング・リプレイ(PR2)を提案する。
PR2はルーティングによるミスマッチを低減し、RL安定性を改善し、様々な推論ベンチマークでパフォーマンスを向上する。
- 参考スコア(独自算出の注目度): 40.05865857566415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture of Experts (MoE) Large Language Models (LLMs) achieve strong performance at scale. However, reinforcement learning (RL) on MoE-based LLMs often suffers from training instability. A root cause is router drift, i.e., expert activations can change drastically across model updates and differ between disaggregated rollout and training phases, causing large rollout--training mismatch and unstable importance sampling weights in PPO-style RL algorithms. Routing replay mitigates this issue by freezing the replay route within each reasoning trajectory, but it ignores how the router evolves under off-policy updates and thus causes router staleness. To address this limitation, we propose Predictive Routing Replay (PR2), which augments each router with a lightweight evolution predictor that learns to anticipate short-horizon router evolution. During the rollout phase, we use the predictive routing distribution to apply top-$k$ routing, enabling gradients to reach experts that are likely to become active after updates. During the training phase, we replay the resulting predicted route to retain consistency for stable importance estimation. Theoretical analysis and experiments support that PR2 reduces routing-induced mismatch, improves RL stability, and yields stronger performance across various reasoning benchmarks.
- Abstract(参考訳): 専門家の混合 (MoE) 大規模言語モデル (LLM) は大規模に高いパフォーマンスを達成する。
しかし,MoE系LLMの強化学習(RL)はトレーニング不安定性に悩まされることが多い。
ルータのドリフト(ルータのドリフト)、すなわち、専門家のアクティベーションはモデル更新全体で劇的に変化し、非凝集ロールアウトとトレーニングフェーズが異なるため、PPOスタイルのRLアルゴリズムでは大きなロールアウトトレーニングミスマッチと不安定な重要サンプリングウェイトが発生する。
ルーティングリプレイは、各推論軌道内でリプレイルートを凍結することでこの問題を緩和するが、ルータが外部の更新の下でどのように進化するかを無視して、ルータの安定性を損なう。
この制限に対処するために,各ルータを軽量な進化予測器で拡張し,短水平ルータの進化を予測できる予測ルーティング・リプレイ(PR2)を提案する。
ロールアウトフェーズでは、予測ルーティングディストリビューションを使用して、トップ$のルーティングを適用します。
トレーニング期間中、我々は予測された経路を再生し、安定的な重要度推定のための一貫性を維持する。
理論的解析と実験により、PR2はルーティングによるミスマッチを低減し、RL安定性を向上し、様々な推論ベンチマークでより強力な性能を得る。
関連論文リスト
- SPS: Steering Probability Squeezing for Better Exploration in Reinforcement Learning for Large Language Models [51.99912169291891]
強化学習(Reinforcement Learning, RL)は、推論指向モデルをトレーニングするための有望なパラダイムとして登場した。
逆強化学習(IRL)で従来のRLをインターリーブする学習パラダイムを提案する。
この結果から,RLとIRLの交互接続は,推論指向の大規模言語モデルの探索能力向上に有効な経路であることが示唆された。
論文 参考訳(メタデータ) (2026-04-18T13:49:47Z) - ReMix: Reinforcement routing for mixtures of LoRAs in LLM finetuning [85.39146836671897]
低ランクアダプタ(LoRAs)は、トレーニング可能な低ランク行列をトレーニング済みモデルに注入し、新しいタスクに適応するパラメータ効率の微調整技術である。
既存のMixture-of-LoRAsルータは学習したルーティングウェイトを各LoRAに割り当て、ルータのエンドツーエンドのトレーニングを可能にする。
Reinforcement Routing for Mixture-of-LoRAs (ReMix) と呼ばれる新しいルータを提案する。
論文 参考訳(メタデータ) (2026-03-10T18:51:27Z) - Stabilizing MoE Reinforcement Learning by Aligning Training and Inference Routers [33.18639109838351]
我々は,MoEモデルのトレーニングと推論の整合性を解析し,ルーティング行動における顕著な相違点を同定する。
本稿では、推論エンジンからのルーティング分布を記録し、トレーニング中にリプレイするRollout Replay Routing (R3)を提案する。
R3は、トレーニング速度を損なうことなく、トレーニング推論ポリシーKLのばらつきを著しく低減し、極端な不一致を緩和する。
論文 参考訳(メタデータ) (2025-10-13T13:11:27Z) - ProxRouter: Proximity-Weighted LLM Query Routing for Improved Robustness to Outliers [14.831117443453165]
大規模言語モデル(LLM)クエリルータは、現代のAIプラットフォームにとって極めて重要である。
非パラメトリックルータにおけるバイアスと分散のバランスをとるために指数関数的に傾いたアグリゲーション機構を応用したProxを提案する。
論文 参考訳(メタデータ) (2025-10-10T20:28:14Z) - Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle [65.14124923451077]
強化学習(Reinforcement Learning, RL)は、マルチモーダル大言語モデル(MLLM)の推論能力を高めるための効果的なポストトレーニングパラダイムとして登場した。
しかしながら、現在のRLパイプラインは、アドバンテージ・コラプシング(Advantage Collapsing)とロールアウト・サイレンシング(Rollout Silencing)という2つの未解決の問題によって、トレーニングの非効率に悩まされることが多い。
軌道サンプリングとバッチ合成を動的に再構成することにより、RLの微調整効率を向上する、シンプルだが原則化されたフレームワークであるShuffle-R1を提案する。
論文 参考訳(メタデータ) (2025-08-07T17:53:47Z) - DRL4Route: A Deep Reinforcement Learning Framework for Pick-up and
Delivery Route Prediction [21.335721424944257]
ルート予測タスクにRL(Reinforcement Learning)を一般化する最初の試みとして,DRL4Routeと呼ばれる新しいRLベースのフレームワークを提案する。
DRL4Routeは既存のディープラーニングモデルを強化するためのプラグイン・アンド・プレイコンポーネントとして機能する。
これは、一般化アドバンテージ推定器を備えたアクター批判アーキテクチャに従う。
論文 参考訳(メタデータ) (2023-07-30T14:50:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。