論文の概要: The Illusion of Specialization: Unveiling the Domain-Invariant "Standing Committee" in Mixture-of-Experts Models
- arxiv url: http://arxiv.org/abs/2601.03425v1
- Date: Tue, 06 Jan 2026 21:29:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.076921
- Title: The Illusion of Specialization: Unveiling the Domain-Invariant "Standing Committee" in Mixture-of-Experts Models
- Title(参考訳): 専門化のイラシオン:知識混合モデルにおけるドメイン不変の「強化委員会」の展開
- Authors: Yan Wang, Yitao Xu, Nanhan Shen, Jinyan Su, Jimin Huang, Zining Zhu,
- Abstract要約: エキスパートモデルの混合は、スパースルーティングによってドメインの特殊化を実現すると広く仮定されている。
我々は,個別の専門家ではなく,専門家グループレベルでのルーティング行動を分析するフレームワークであるCOMMITTEEAUDITを紹介する。
私たちは、スタンドング委員会が、ドメイン、レイヤ、およびルーティング予算をまたいだルーティングマスの大部分を一貫して捉えていることに気付きました。
- 参考スコア(独自算出の注目度): 18.428606280260187
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture of Experts models are widely assumed to achieve domain specialization through sparse routing. In this work, we question this assumption by introducing COMMITTEEAUDIT, a post hoc framework that analyzes routing behavior at the level of expert groups rather than individual experts. Across three representative models and the MMLU benchmark, we uncover a domain-invariant Standing Committee. This is a compact coalition of routed experts that consistently captures the majority of routing mass across domains, layers, and routing budgets, even when architectures already include shared experts. Qualitative analysis further shows that Standing Committees anchor reasoning structure and syntax, while peripheral experts handle domain-specific knowledge. These findings reveal a strong structural bias toward centralized computation, suggesting that specialization in Mixture of Experts models is far less pervasive than commonly believed. This inherent bias also indicates that current training objectives, such as load-balancing losses that enforce uniform expert utilization, may be working against the model's natural optimization path, thereby limiting training efficiency and performance.
- Abstract(参考訳): エキスパートモデルの混合は、スパースルーティングによってドメインの特殊化を実現すると広く仮定されている。
本研究では,個別の専門家ではなく,専門家グループレベルでのルーティング行動を分析するポストホックフレームワークであるCOMMITTEEAUDITを導入することで,この仮定を疑問視する。
3つの代表モデルとMMLUベンチマークで、ドメイン不変のスタンディング委員会を発見しました。
これは、アーキテクチャがすでに共有専門家を含む場合でも、ドメイン、レイヤ、ルーティング予算にまたがるルーティングマスの大部分を一貫してキャプチャする、ルーティング専門家によるコンパクトな連合である。
質的な分析は、スタンドング委員会が推論の構造と構文を固定し、周辺の専門家がドメイン固有の知識を扱うことを示している。
これらの結果は、集中型計算に対する強い構造バイアスを示し、Mixture of Expertsモデルの特殊化は一般的に信じられているよりもはるかに普及していないことを示唆している。
この固有のバイアスは、現在のトレーニング目標、例えば、一様の専門家利用を強制する負荷分散損失は、モデルの自然な最適化パスに対抗して、トレーニング効率とパフォーマンスを制限している可能性があることも示している。
関連論文リスト
- Enhancing CTR Prediction with De-correlated Expert Networks [45.50697497028273]
本稿では,専門的相関を最小化するクロスエキスパートデコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレー
我々はD-MoEがMulti-Embedding MoEベースラインと比較して1.19%のGross Merchandise Volume (GMV)リフトを達成することを示す。
論文 参考訳(メタデータ) (2025-05-23T14:04:38Z) - Domain-Specific Pruning of Large Mixture-of-Experts Models with Few-shot Demonstrations [48.890534958441016]
本研究では,大規模MoEモデルにおける領域の特殊化と専門的冗長性について検討する。
本稿では,最も関係のある専門家のみを識別・保持するための簡易で効果的な刈取フレームワークであるEASY-EPを提案する。
DeepSeek-R1とDeepSeek-V3-0324の実験は、我々の手法が同じメモリ予算の下で同等の性能と2.99タイムのスループットを達成できることを示した。
論文 参考訳(メタデータ) (2025-04-09T11:34:06Z) - Unified Sparse Mixture of Experts [14.774596844618396]
SMOE(Sparse Mixture of Experts)モデルは、一定の計算オーバーヘッドを維持しながら、モデルのキャパシティをスケールする。
本稿では,これらの制約に対処する統一スパース・ミックス・オブ・エキスパート(USMoE)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-29T07:15:12Z) - Convergence Rates for Softmax Gating Mixture of Experts [78.3687645289918]
機械学習モデルの効率性とスケーラビリティを向上するための効果的なフレームワークとして、Mixture of Expert (MoE)が登場した。
MoEの成功の中心は、適応的なソフトマックスゲーティングメカニズムであり、各専門家の入力に対する関連性を決定する責任を負い、それぞれの重みを動的に専門家に割り当てる。
標準ソフトマックスゲーティングまたはその変種を備えたMoEの下で,パラメータ推定と専門家推定の収束解析を行い,密度とスパースゲーティングと階層ソフトマックスゲーティングを含む。
論文 参考訳(メタデータ) (2025-03-05T06:11:24Z) - Adaptive Conditional Expert Selection Network for Multi-domain Recommendation [10.418133538132635]
Mixture-of-Experts (MOE)は、最近マルチドメインレコメンデーション(MDR)におけるデファクトスタンダードになっている。
CESAAは、Conditional Expert Selection (CES) ModuleとAdaptive Expert Aggregation (AEA) Moduleで構成されている。
AEAは、専門家と特定のドメイン間の相関を強化するために、相互情報損失を利用しており、専門家の区別を大幅に改善している。
論文 参考訳(メタデータ) (2024-11-11T09:39:31Z) - Generalization Error Analysis for Sparse Mixture-of-Experts: A Preliminary Study [65.11303133775857]
Mixture-of-Experts (MoE)計算アマルガメート予測
Sparse MoEは、限られた数、あるいは1つの専門家だけを選択的に扱うことで、経験的に保存され、時にはパフォーマンスが向上する一方で、オーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2024-03-26T05:48:02Z) - Sparsely-gated Mixture-of-Expert Layers for CNN Interpretability [3.021134753248103]
小さいゲートのMixture of Expert (MoE)層が大きなトランスのスケーリングに成功している。
本研究では,コンピュータビジョンタスクのCNNに対して,スパースMOE層を適用し,モデル解釈性への影響を解析する。
論文 参考訳(メタデータ) (2022-04-22T09:40:23Z) - On the Representation Collapse of Sparse Mixture of Experts [102.83396489230375]
専門家のまばらな混合は、一定の計算オーバーヘッドを必要としながら、より大きなモデルキャパシティを提供する。
入力トークンを隠された表現に従ってベストマッチした専門家に分散するためにルーティング機構を使用する。
しかし、そのようなルーティングメカニズムを学ぶことで、専門家のセントロイドを中心にトークンのクラスタリングが促進され、表現の崩壊の傾向が示唆される。
論文 参考訳(メタデータ) (2022-04-20T01:40:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。