論文の概要: Input Domain Aware MoE: Decoupling Routing Decisions from Task Optimization in Mixture of Experts
- arxiv url: http://arxiv.org/abs/2510.16448v1
- Date: Sat, 18 Oct 2025 11:01:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.001681
- Title: Input Domain Aware MoE: Decoupling Routing Decisions from Task Optimization in Mixture of Experts
- Title(参考訳): 入力ドメイン対応 MoE: エキスパートの混在におけるタスク最適化からのルーティング決定の分離
- Authors: Yongxiang Hua, Haoyu Cao, Zhou Tao, Bocheng Li, Zihao Wu, Chaohu Liu, Linli Xu,
- Abstract要約: Sparse Mixture of Experts (sMoE)は、大規模な視覚言語モデルをスケールするための重要なアプローチとなっている。
本稿では、確率的混合モデルを利用して入力空間を分割する新しいルーティングフレームワークであるInput Domain Aware MoEを提案する。
ルーティング確率を分布の混合としてモデル化することにより、バランスの取れた利用を達成しつつ、専門家が明確な特殊化境界を構築できる。
- 参考スコア(独自算出の注目度): 19.707274733121412
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse Mixture of Experts (sMoE) has become a pivotal approach for scaling large vision-language models, offering substantial capacity while maintaining computational efficiency through dynamic, sparse activation of experts. However, existing routing mechanisms, typically based on similarity scoring, struggle to effectively capture the underlying input structure. This limitation leads to a trade-off between expert specialization and balanced computation, hindering both scalability and performance. We propose Input Domain Aware MoE, a novel routing framework that leverages a probabilistic mixture model to better partition the input space. By modeling routing probabilities as a mixture of distributions, our method enables experts to develop clear specialization boundaries while achieving balanced utilization. Unlike conventional approaches, our routing mechanism is trained independently of task-specific objectives, allowing for stable optimization and decisive expert assignments. Empirical results on vision-language tasks demonstrate that our method consistently outperforms existing sMoE approaches, achieving higher task performance and improved expert utilization balance.
- Abstract(参考訳): Sparse Mixture of Experts (sMoE) は、大規模な視覚言語モデルをスケールするための重要なアプローチとなり、エキスパートのダイナミックでスパースなアクティベーションを通じて計算効率を保ちながら、かなりの能力を提供する。
しかし、既存のルーティング機構は、典型的には類似性のスコアリングに基づいており、基礎となる入力構造を効果的に捉えるのに苦労している。
この制限は、専門家の専門化とバランスの取れた計算のトレードオフをもたらし、スケーラビリティとパフォーマンスの両方を妨げる。
本稿では、確率的混合モデルを利用して入力空間を分割する新しいルーティングフレームワークであるInput Domain Aware MoEを提案する。
ルーティング確率を分布の混合としてモデル化することにより、バランスの取れた利用を達成しつつ、専門家が明確な特殊化境界を構築できる。
従来の手法とは異なり、我々のルーティングメカニズムはタスク固有の目的から独立して訓練されており、安定した最適化と決定的な専門家の割り当てを可能にしている。
視覚言語タスクにおける実験結果から,本手法は既存のsMoE手法を一貫して上回り,タスク性能の向上と専門家の活用バランスの向上を図っている。
関連論文リスト
- GatePro: Parameter-Free Expert Selection Optimization for Mixture-of-Experts Models [22.458582284833266]
GateProは、専門家選択の多様性を直接促進する新しいパラメータフリー手法である。
我々の総合的な評価は、モデルスケールとベンチマークにおけるGateProの有効性を示している。
このアプローチは、追加の学習可能なパラメータなしで、任意のトレーニングフェーズ中にホットスワップできる。
論文 参考訳(メタデータ) (2025-10-15T01:47:45Z) - Advancing Expert Specialization for Better MoE [22.88847592702946]
Mixture-of-Experts (MoE)モデルは、入力毎に専門家のサブセットだけを活性化することにより、大きな言語モデル(LLM)の効率的なスケーリングを可能にする。
一般的に使用される補助負荷分散損失は、しばしば専門家の重複と過度に均一なルーティングをもたらす。
本稿では,2つの相補的目的を取り入れた,シンプルで効果的な解を提案する。
論文 参考訳(メタデータ) (2025-05-28T13:09:47Z) - Tuning for Trustworthiness -- Balancing Performance and Explanation Consistency in Neural Network Optimization [49.567092222782435]
我々は,異なる特徴帰属法間の合意として定義された,XAI整合性という新しい概念を紹介する。
予測性能と説明のバランスをとる多目的最適化フレームワークを構築した。
本研究は、トレードオフゾーンバランス性能損失とXAI整合性による強靭性向上のモデルについて、今後の研究基盤を提供する。
論文 参考訳(メタデータ) (2025-05-12T13:19:14Z) - DynMoLE: Boosting Mixture of LoRA Experts Fine-Tuning with a Hybrid Routing Mechanism [5.988126768890861]
DynMoLEは、ルータの確率分布のTsallisエントロピーに基づいて、専門家の選択を動的に調整するハイブリッドルーティング戦略である。
我々はDynMoLEが大幅な性能向上を実現していることを示す。
論文 参考訳(メタデータ) (2025-04-01T11:14:19Z) - On the Role of Discrete Representation in Sparse Mixture of Experts [33.809432499123275]
VQMoE(Vector-Quantized Mixture of Experts)と呼ばれる新しいアーキテクチャを提案する。
VQMoEは計算コストを増大させることなく、モデルキャパシティをスケールアップするための効果的なソリューションである。
VQMoEは,他のSMoEルーティング方式と比較して,ルータの28%の改善を実現している。
論文 参考訳(メタデータ) (2024-11-28T22:32:01Z) - T-REX: Mixture-of-Rank-One-Experts with Semantic-aware Intuition for Multi-task Large Language Model Finetuning [31.276142111455847]
大規模言語モデル(LLM)は多様なマルチタスクの微調整において重要な適応課題に直面している。
我々はmixunderlinetextbfTureunderlinetextbf-of-underlinetextbfRank-onunderlinetextbfE-eunderlinetextbfXper ts (textttT-REX) という新しいフレームワークを設計する。
Rank-1のエキスパートは、ミックス・アンド・マッチのメカニズムにより、線形パラメータのオーバーヘッドを持つエキスパートのベクトル部分空間を2次に拡張し、最適で近似誤差削減を達成することができる。
論文 参考訳(メタデータ) (2024-04-13T12:14:58Z) - Harder Tasks Need More Experts: Dynamic Routing in MoE Models [58.18526590138739]
本稿では,Mixture of Experts(MoE)モデルのための新しい動的専門家選択フレームワークを提案する。
提案手法は,各入力に対する専門家選択の信頼性レベルに基づいて,専門家を動的に選択する。
論文 参考訳(メタデータ) (2024-03-12T13:41:15Z) - Mimicking Better by Matching the Approximate Action Distribution [48.95048003354255]
そこで我々は,Imitation Learning from Observationsのための新しい,サンプル効率の高いオンライン政治アルゴリズムMAADを紹介する。
我々は、専門家のパフォーマンスを達成するためには、かなり少ないインタラクションが必要であり、現在最先端の政治手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T12:43:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。