論文の概要: MoE-GRPO: Optimizing Mixture-of-Experts via Reinforcement Learning in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2603.24984v1
- Date: Thu, 26 Mar 2026 03:23:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.076448
- Title: MoE-GRPO: Optimizing Mixture-of-Experts via Reinforcement Learning in Vision-Language Models
- Title(参考訳): MoE-GRPO:視覚言語モデルにおける強化学習によるミックス・オブ・エクササイズの最適化
- Authors: Dohwan Ko, Jinyoung Park, Seoung Choi, Sanghyeok Lee, Seohyun Lee, Hyunwoo J. Kim,
- Abstract要約: Mixture-of-Experts (MoE)は、Transformerアーキテクチャの計算オーバーヘッドを削減する効果的なアプローチとして登場した。
我々は、MoEベースのビジョンランゲージモデルにおいて、エキスパートルーティングを最適化するための強化学習フレームワークであるMoE-GRPOを提案する。
MoE-GRPOは、より多様な専門家の選択を促進することにより、標準のトップKルーティングとその変種を一貫して上回ることを示す。
- 参考スコア(独自算出の注目度): 36.67777831459829
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts (MoE) has emerged as an effective approach to reduce the computational overhead of Transformer architectures by sparsely activating a subset of parameters for each token while preserving high model capacity. This paradigm has recently been extended to Vision-Language Models (VLMs), enabling scalable multi-modal understanding with reduced computational cost. However, the widely adopted deterministic top-K routing mechanism may overlook more optimal expert combinations and lead to expert overfitting. To address this limitation and improve the diversity of expert selection, we propose MoE-GRPO, a reinforcement learning (RL)-based framework for optimizing expert routing in MoE-based VLMs. Specifically, we formulate expert selection as a sequential decision-making problem and optimize it using Group Relative Policy Optimization (GRPO), allowing the model to learn adaptive expert routing policies through exploration and reward-based feedback. Furthermore, we introduce a modality-aware router guidance that enhances training stability and efficiency by discouraging the router from exploring experts that are infrequently activated for a given modality. Extensive experiments on multi-modal image and video benchmarks show that MoE-GRPO consistently outperforms standard top-K routing and its variants by promoting more diverse expert selection, thereby mitigating expert overfitting and enabling a task-level expert specialization.
- Abstract(参考訳): Mixture-of-Experts (MoE) は、トランスフォーマーアーキテクチャの計算オーバーヘッドを減らし、高いモデルキャパシティを維持しながらトークンごとにパラメータのサブセットをわずかに活性化する効果的なアプローチとして登場した。
このパラダイムは、最近Vision-Language Models (VLM) に拡張され、計算コストを削減してスケーラブルなマルチモーダル理解を可能にした。
しかし、広く採用されている決定論的トップKルーティング機構は、より最適な専門家の組み合わせを見落とし、専門家のオーバーフィットにつながる可能性がある。
この制限に対処し、専門家選択の多様性を改善するために、MoEベースのVLMにおけるエキスパートルーティングを最適化するための強化学習(RL)ベースのフレームワークであるMoE-GRPOを提案する。
具体的には、専門家選択をシーケンシャルな意思決定問題として定式化し、グループ相対ポリシー最適化(GRPO)を用いて最適化し、モデルが探索と報酬に基づくフィードバックを通じて適応的な専門家ルーティングポリシーを学習できるようにする。
さらに,与えられたモダリティに対して頻繁にアクティベートされる専門家からルータを遠ざけることで,トレーニングの安定性と効率を向上させるモダリティ対応ルータガイダンスを導入する。
マルチモーダル画像およびビデオベンチマークの大規模な実験により、MoE-GRPOは、より多様な専門家選択を促進することにより、標準のトップKルーティングとそのバリエーションを一貫して上回り、専門家の過剰適合を軽減し、タスクレベルの専門家の専門化を可能にすることが示されている。
関連論文リスト
- Expert Divergence Learning for MoE-based Language Models [21.857507958048696]
本稿では,専門家間の機能的専門化を明確に促進する,新しい事前学習戦略であるExpert Divergence Learningを紹介する。
本手法は,事前学習コーパスに固有のドメインラベルを活用するラベル駆動補助損失を組み込む。
我々は,最大150億パラメータのMoEモデルをスクラッチから事前学習することで,我々のアプローチを検証する。
論文 参考訳(メタデータ) (2026-02-10T06:58:38Z) - Input Domain Aware MoE: Decoupling Routing Decisions from Task Optimization in Mixture of Experts [19.707274733121412]
Sparse Mixture of Experts (sMoE)は、大規模な視覚言語モデルをスケールするための重要なアプローチとなっている。
本稿では、確率的混合モデルを利用して入力空間を分割する新しいルーティングフレームワークであるInput Domain Aware MoEを提案する。
ルーティング確率を分布の混合としてモデル化することにより、バランスの取れた利用を達成しつつ、専門家が明確な特殊化境界を構築できる。
論文 参考訳(メタデータ) (2025-10-18T11:01:03Z) - Guided by the Experts: Provable Feature Learning Dynamic of Soft-Routed Mixture-of-Experts [11.437368205968573]
本稿では,非線形ルータと専門家によるソフトローイング型MoEモデルの連成訓練のための収束保証を提供することにより,MoE理論を推し進める。
訓練後プルーニングは、効果的に冗長ニューロンを除去し、続いて、大域的最適性に到達した、確実に収束した微調整プロセスを示す。
論文 参考訳(メタデータ) (2025-10-08T16:40:31Z) - Adaptive Shared Experts with LoRA-Based Mixture of Experts for Multi-Task Learning [49.90176890917986]
マルチタスク学習(MTL)のための強力なフレームワークとして、Mixture-of-Experts(MoE)が登場した。
既存のMoE-MTL法は、しばしばシングルタスクで事前訓練されたバックボーンに依存し、冗長な適応と非効率的な知識共有に悩まされる。
低ランク適応 (LoRA) に基づく MoE の適応型共有専門家 (ASE) を提案する。
論文 参考訳(メタデータ) (2025-10-01T06:49:19Z) - LD-MoLE: Learnable Dynamic Routing for Mixture of LoRA Experts [24.0422448103907]
LD-MoLEはLearningable Dynamic routing mechanism for Mixture of LoRA Expertsを提案する。
我々の設計では、異なる層で各トークンに対してアクティベートする専門家の数を適応的に決定できる。
提案手法は,優れた性能を実現するとともに,トークン依存型およびレイヤワイドのエキスパートアロケーションを学習する能力も示す。
論文 参考訳(メタデータ) (2025-09-30T02:38:10Z) - EvoMoE: Expert Evolution in Mixture of Experts for Multimodal Large Language Models [25.12002287083368]
MLLM(Multi-modal large language model)は、MoE技術を採用した。
MoEの専門家は、単にLPMからFFNパラメータを複製することで、しばしば発生する。
専門家の統一性は、MOEの専門家が単に LLM から FFN パラメータを複製することによって生じることが多いためである。
ルータの剛性は 専門家の選択に 静的リニアルータが 広く使われていることに由来する
論文 参考訳(メタデータ) (2025-05-28T08:38:39Z) - Symbolic Mixture-of-Experts: Adaptive Skill-based Routing for Heterogeneous Reasoning [76.10639521319382]
シンボリックなテキストベースでグラデーションのないMixture-of-ExpertsフレームワークであるSybolic-MoEを提案する。
GPT4o-miniのような強力なLCMやマルチエージェントアプローチに勝るSymbolic-MoEは、最高のマルチエージェントベースラインよりも8.15%向上している。
論文 参考訳(メタデータ) (2025-03-07T18:03:13Z) - Harder Tasks Need More Experts: Dynamic Routing in MoE Models [58.18526590138739]
本稿では,Mixture of Experts(MoE)モデルのための新しい動的専門家選択フレームワークを提案する。
提案手法は,各入力に対する専門家選択の信頼性レベルに基づいて,専門家を動的に選択する。
論文 参考訳(メタデータ) (2024-03-12T13:41:15Z) - Soft Expert Reward Learning for Vision-and-Language Navigation [94.86954695912125]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従うことで、目に見えない環境で特定の場所を見つける必要がある。
本稿では,VLNタスクの工学的設計と一般化問題を克服するために,ソフトエキスパート・リワード・ラーニング(SERL)モデルを導入する。
論文 参考訳(メタデータ) (2020-07-21T14:17:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。