論文の概要: The Myth of Expert Specialization in MoEs: Why Routing Reflects Geometry, Not Necessarily Domain Expertise
- arxiv url: http://arxiv.org/abs/2604.09780v1
- Date: Fri, 10 Apr 2026 18:04:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.668829
- Title: The Myth of Expert Specialization in MoEs: Why Routing Reflects Geometry, Not Necessarily Domain Expertise
- Title(参考訳): MoEsにおけるエキスパートスペシャライゼーションの神話:なぜルーティングは幾何学を反映するのか
- Authors: Xi Wang, Soufiane Hayou, Eric Nalisnick,
- Abstract要約: MoEルータは線形写像であるため、隠れ状態の類似性も必要であり、専門家の使い方の類似性を説明するのに十分である。
また、負荷分散損失は、ルーティングの多様性を維持するために共有された隠れ状態の方向を抑制することも証明した。
このクリーンなメカニスティックな説明にもかかわらず、事前訓練されたMoEの特殊化パターンは人間の解釈に抵抗する。
- 参考スコア(独自算出の注目度): 13.748089632196182
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture of Experts (MoEs) are now ubiquitous in large language models, yet the mechanisms behind their "expert specialization" remain poorly understood. We show that, since MoE routers are linear maps, hidden state similarity is both necessary and sufficient to explain expert usage similarity, and specialization is therefore an emergent property of the representation space, not of the routing architecture itself. We confirm this at both token and sequence level across five pre-trained models. We additionally prove that load-balancing loss suppresses shared hidden state directions to maintain routing diversity, which might provide a theoretical explanation for specialization collapse under less diverse data, e.g. small batch. Despite this clean mechanistic account, we find that specialization patterns in pre-trained MoEs resist human interpretation: expert overlap between different models answering the same question is no higher than between entirely different questions ($\sim$60\%); prompt-level routing does not predict rollout-level routing; and deeper layers exhibit near-identical expert activation across semantically unrelated inputs, especially in reasoning models. We conclude that, while the efficiency perspective of MoEs is well understood, understanding expert specialization is at least as hard as understanding LLM hidden state geometry, a long-standing open problem in the literature.
- Abstract(参考訳): 現在、Mixture of Experts (MoEs) は大規模な言語モデルで広く使われているが、それらの「専門家の専門化」の背後にあるメカニズムは理解されていない。
我々は,MoEルータが線形写像であるため,隠れ状態の類似性は専門的利用の類似性を説明するのに必要かつ十分であり,特殊化はルーティングアーキテクチャ自体ではなく表現空間の創発的特性であることを示す。
5つの事前訓練されたモデルのトークンレベルとシーケンスレベルの両方でこれを確認します。
また、負荷分散損失が共有状態の方向を抑え、ルーティングの多様性を維持することを証明し、例えば小さなバッチなど、より多様なデータの下での特殊化崩壊の理論的な説明を提供する。
事前学習されたMoEの特殊化パターンは人間の解釈に反する: 同じ質問に答える異なるモデル間の専門家のオーバーラップは、全く異なる質問間で(\sim$60\%)、プロンプトレベルのルーティングはロールアウトレベルのルーティングを予測せず、深いレイヤは意味的に無関係な入力、特に推論モデルにおいて、ほぼ同一の専門家の活性化を示す。
我々は、MoEsの効率の観点はよく理解されているが、専門家の専門化を理解することは、文学における長年の未解決問題であるLLMの隠れ状態幾何学を理解するのと同じくらい難しいと結論付けた。
関連論文リスト
- MoE Routing Testbed: Studying Expert Specialization and Routing Behavior at Small Scale [12.078286327859425]
そこで我々は,ルーティングダイナミックスを小規模でより鮮明に可視化する,MoE Routing Testbedを提案する。
テストベッドは、理想的なルーティングを規定する参照ルータと、明確に区別可能なドメインとデータミキシングをペアリングする。
高い専門家の活用を維持しつつ、専門化を実現する上で、バランスの取れたスコープが重要な要素であることを示します。
論文 参考訳(メタデータ) (2026-04-08T12:47:57Z) - The Expert Strikes Back: Interpreting Mixture-of-Experts Language Models at Expert Level [9.716523835964045]
Mixture-of-Experts (MoE) が大規模言語モデル(LLM)のスケーリングの主要な選択肢となっている。
我々は、$k$sparse Probingを用いて、MoEの専門家と高密度フィードフォワードネットワークを比較した。
専門家ニューロンは、ルーティングがスペーサーになるにつれてギャップが広くなるため、連続的にポリセマンティックではないことが分かりました。
論文 参考訳(メタデータ) (2026-04-02T15:41:24Z) - MoE Lens -- An Expert Is All You Need [0.09444932939944471]
エキスパートの混合(MoE)モデルは、スパース専門家のアクティベーションを通じてパラメータ効率のスケーリングを可能にする。
本稿では,2つの相補的アプローチを用いて,MoEsの専門家専門化の体系的分析を行う。
論文 参考訳(メタデータ) (2026-03-06T01:35:28Z) - ERMoE: Eigen-Reparameterized Mixture-of-Experts for Stable Routing and Interpretable Specialization [13.182475975397251]
ERMoEは、学習したゲーティングログを"Eigenbasis Score"に置き換えるスパースなMoE変換器である
ERMoE は ImageNet 分類と クロスモーダル画像テキスト検索ベンチマークにおける最先端の精度を実現する。
3D MRI変異体(ERMoE-ba)は、脳年齢予測の精度を7%以上改善し、解釈可能な専門家の専門化をもたらす。
論文 参考訳(メタデータ) (2025-11-14T05:31:37Z) - Beyond Redundancy: Diverse and Specialized Multi-Expert Sparse Autoencoder [59.89996751196727]
スパースオートエンコーダ(SAE)は、大規模な言語モデルを解釈するための強力なツールとして登場した。
SAEの隠蔽層は、空間的制約を満たすために高い次元性を持ち、結果として禁止的なトレーニングと推論コストをもたらす。
近年のMixture of Experts (MoE) アプローチは、SAEsによってゲートアクティベーションを持つより狭い専門家ネットワークにこの問題に対処しようとしている。
本稿では,(1)専門化を促進するために意味的に重み付けされた専門家サブセットを同時に関与する複数の専門家活性化,(2)適応的な高周波スケーリングによって多様性を高める特徴スケーリングという2つの重要なイノベーションを提案する。
論文 参考訳(メタデータ) (2025-11-07T22:19:34Z) - Complexity Experts are Task-Discriminative Learners for Any Image Restoration [80.46313715427928]
複雑性の専門家" - 様々な計算複雑性と受容的なフィールドを持つフレキシブルな専門家ブロックを紹介します。
この選好は、タスク固有の割り当てを効果的に推進し、適切な複雑さを持つ専門家にタスクを割り当てる。
提案したMoCE-IRモデルは最先端の手法より優れており、その効率性と実用性が確認されている。
論文 参考訳(メタデータ) (2024-11-27T15:58:07Z) - Generalization Error Analysis for Sparse Mixture-of-Experts: A Preliminary Study [65.11303133775857]
Mixture-of-Experts (MoE)計算アマルガメート予測
Sparse MoEは、限られた数、あるいは1つの専門家だけを選択的に扱うことで、経験的に保存され、時にはパフォーマンスが向上する一方で、オーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2024-03-26T05:48:02Z) - Multilinear Mixture of Experts: Scalable Expert Specialization through Factorization [51.98792406392873]
Mixture of Experts (MoE)は、高密度層をより小さくモジュール化された計算に分解する強力な方法を提供する。
大きな課題は、きめ細かい特殊化を達成するのに十分高い専門家の数をスケーリングする計算コストである。
視覚モデルに焦点をあて、この問題に対処するため、Multilinear Mixture of Experts(mu$MoE)層を提案する。
論文 参考訳(メタデータ) (2024-02-19T21:20:22Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z) - Sparsely-gated Mixture-of-Expert Layers for CNN Interpretability [3.021134753248103]
小さいゲートのMixture of Expert (MoE)層が大きなトランスのスケーリングに成功している。
本研究では,コンピュータビジョンタスクのCNNに対して,スパースMOE層を適用し,モデル解釈性への影響を解析する。
論文 参考訳(メタデータ) (2022-04-22T09:40:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。