論文の概要: Phase-Aware Mixture of Experts for Agentic Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.17038v1
- Date: Thu, 19 Feb 2026 03:18:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.615462
- Title: Phase-Aware Mixture of Experts for Agentic Reinforcement Learning
- Title(参考訳): エージェント強化学習の専門家のフェーズ・アウェア・ミックス
- Authors: Shengtian Yang, Yu Li, Shuo He, Yewen Li, Qingpeng Cai, Peng Jiang, Lei Feng,
- Abstract要約: ポリシーネットワークにはMixture-of-Experts (MoE)アーキテクチャが採用される可能性がある。
MoEは異なるパラメータ(専門家)に異なるタスクを専門化させ、単純なタスクが全てのパラメータを支配できないようにする。
textbfPhase-Aware Mixture of Experts (PA-MoE)を提案する。
まず、RLの目的から遅延位相境界を直接学習し、位相カテゴリを事前に定義せずに、軽量のEmphphaseルータを特徴とする。
そして、フェーズルータは同じ専門家に時間的に一貫した割り当てを割り当て、専門家はフェーズ固有の専門知識を維持することができる。
- 参考スコア(独自算出の注目度): 23.18318273534301
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has equipped LLM agents with a strong ability to solve complex tasks. However, existing RL methods normally use a \emph{single} policy network, causing \emph{simplicity bias} where simple tasks occupy most parameters and dominate gradient updates, leaving insufficient capacity for complex tasks. A plausible remedy could be employing the Mixture-of-Experts (MoE) architecture in the policy network, as MoE allows different parameters (experts) to specialize in different tasks, preventing simple tasks from dominating all parameters. However, a key limitation of traditional MoE is its token-level routing, where the router assigns each token to specialized experts, which fragments phase-consistent patterns into scattered expert assignments and thus undermines expert specialization. In this paper, we propose \textbf{Phase-Aware Mixture of Experts (PA-MoE)}. It first features a lightweight \emph{phase router} that learns latent phase boundaries directly from the RL objective without pre-defining phase categories. Then, the phase router allocates temporally consistent assignments to the same expert, allowing experts to preserve phase-specific expertise. Experimental results demonstrate the effectiveness of our proposed PA-MoE.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、複雑なタスクを解く強力な能力を持つLLMエージェントを備えている。
しかし、既存のRL法は、通常、'emph{single} ポリシーネットワークを使用し、単純なタスクがほとんどのパラメータを占有し、勾配の更新を支配し、複雑なタスクのキャパシティが不足している 'emph{simplicity bias} を引き起こす。
ポリシーネットワークにおけるMixture-of-Experts (MoE) アーキテクチャは、MoEが異なるパラメータ(専門家)に異なるタスクを専門化させ、単純なタスクが全てのパラメータを支配できないようにするものである。
しかし、従来のMoEの重要な制限はトークンレベルのルーティングであり、ルータは各トークンを専門の専門家に割り当てる。
本稿では,エキスパートの知識混合(PA-MoE)を提案する。
まず、RLの目的から遅延位相境界を直接学習する軽量な 'emph{phase router} を特徴とする。
そして、フェーズルータは同じ専門家に時間的に一貫した割り当てを割り当て、専門家はフェーズ固有の専門知識を保持できる。
実験の結果,提案したPA-MoEの有効性が示された。
関連論文リスト
- SAME: Stabilized Mixture-of-Experts for Multimodal Continual Instruction Tuning [83.66308307152808]
マルチモーダル・インストラクション・チューニング(MCIT)のためのStAbilized Mixture-of-Experts(SAME)を提案する。
プロプライエタリは、サブスペースへのルーティングダイナミクスを分解し、タスク関連方向のみを更新することで、専門家の選択を安定化する。
また、トレーニング中に選択した専門家を凍結するためにアダプティブな専門家アクティベーションを導入し、冗長でクロスタスクな干渉を減らす。
論文 参考訳(メタデータ) (2026-02-02T11:47:06Z) - MoE Pathfinder: Trajectory-driven Expert Pruning [19.790092938955336]
本稿では, 各層にまたがるアクティベート専門家の軌道に基づくプルーニング手法を提案する。
提案手法は,既存のほとんどの手法と比較して,ほぼすべてのタスクにおいて優れたプルーニング性能を実現する。
論文 参考訳(メタデータ) (2025-12-20T17:05:08Z) - Guided by the Experts: Provable Feature Learning Dynamic of Soft-Routed Mixture-of-Experts [11.437368205968573]
本稿では,非線形ルータと専門家によるソフトローイング型MoEモデルの連成訓練のための収束保証を提供することにより,MoE理論を推し進める。
訓練後プルーニングは、効果的に冗長ニューロンを除去し、続いて、大域的最適性に到達した、確実に収束した微調整プロセスを示す。
論文 参考訳(メタデータ) (2025-10-08T16:40:31Z) - Adaptive Shared Experts with LoRA-Based Mixture of Experts for Multi-Task Learning [49.90176890917986]
マルチタスク学習(MTL)のための強力なフレームワークとして、Mixture-of-Experts(MoE)が登場した。
既存のMoE-MTL法は、しばしばシングルタスクで事前訓練されたバックボーンに依存し、冗長な適応と非効率的な知識共有に悩まされる。
低ランク適応 (LoRA) に基づく MoE の適応型共有専門家 (ASE) を提案する。
論文 参考訳(メタデータ) (2025-10-01T06:49:19Z) - One-Prompt Strikes Back: Sparse Mixture of Experts for Prompt-based Continual Learning [52.966712416640085]
本稿では,タスク固有戦略と共有プロンプト戦略の両方の利点を統合する新しいフレームワークであるSMoPEを提案する。
SMoPEはタスク固有のプロンプトメソッドを一貫して上回り、最先端のアプローチと競合する性能を達成する。
論文 参考訳(メタデータ) (2025-09-29T08:54:58Z) - Token-Level Prompt Mixture with Parameter-Free Routing for Federated Domain Generalization [51.562474873972086]
Federated Domain Generalization (FedDG)は、異種データを持つ分散クライアントからグローバルに一般化可能なモデルを学ぶことを目的としている。
近年の研究では、単一のグローバルなプロンプトを学習することで、FedDGの視覚言語モデル(VLM)を適応させる素早い学習が導入されている。
本稿では,FedDGのためのパラメータフリールーティングフレームワークであるTRIPを提案する。
論文 参考訳(メタデータ) (2025-04-29T11:06:03Z) - Complexity Experts are Task-Discriminative Learners for Any Image Restoration [80.46313715427928]
複雑性の専門家" - 様々な計算複雑性と受容的なフィールドを持つフレキシブルな専門家ブロックを紹介します。
この選好は、タスク固有の割り当てを効果的に推進し、適切な複雑さを持つ専門家にタスクを割り当てる。
提案したMoCE-IRモデルは最先端の手法より優れており、その効率性と実用性が確認されている。
論文 参考訳(メタデータ) (2024-11-27T15:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。