論文の概要: The Expert Strikes Back: Interpreting Mixture-of-Experts Language Models at Expert Level
- arxiv url: http://arxiv.org/abs/2604.02178v1
- Date: Thu, 02 Apr 2026 15:41:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.892136
- Title: The Expert Strikes Back: Interpreting Mixture-of-Experts Language Models at Expert Level
- Title(参考訳): 専門家が振り返る:エキスパートレベルでの混在する言語モデルの解釈
- Authors: Jeremy Herbst, Jae Hee Lee, Stefan Wermter,
- Abstract要約: Mixture-of-Experts (MoE) が大規模言語モデル(LLM)のスケーリングの主要な選択肢となっている。
我々は、$k$sparse Probingを用いて、MoEの専門家と高密度フィードフォワードネットワークを比較した。
専門家ニューロンは、ルーティングがスペーサーになるにつれてギャップが広くなるため、連続的にポリセマンティックではないことが分かりました。
- 参考スコア(独自算出の注目度): 9.716523835964045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts (MoE) architectures have become the dominant choice for scaling Large Language Models (LLMs), activating only a subset of parameters per token. While MoE architectures are primarily adopted for computational efficiency, it remains an open question whether their sparsity makes them inherently easier to interpret than dense feed-forward networks (FFNs). We compare MoE experts and dense FFNs using $k$-sparse probing and find that expert neurons are consistently less polysemantic, with the gap widening as routing becomes sparser. This suggests that sparsity pressures both individual neurons and entire experts toward monosemanticity. Leveraging this finding, we zoom out from the neuron to the expert level as a more effective unit of analysis. We validate this approach by automatically interpreting hundreds of experts. This analysis allows us to resolve the debate on specialization: experts are neither broad domain specialists (e.g., biology) nor simple token-level processors. Instead, they function as fine-grained task experts, specializing in linguistic operations or semantic tasks (e.g., closing brackets in LaTeX). Our findings suggest that MoEs are inherently interpretable at the expert level, providing a clearer path toward large-scale model interpretability. Code is available at: https://github.com/jerryy33/MoE_analysis
- Abstract(参考訳): Mixture-of-Experts (MoE)アーキテクチャは、Large Language Models (LLM)のスケーリングにおいて主要な選択肢となり、トークンごとにパラメータのサブセットだけを活性化している。
MoEアーキテクチャは、主に計算効率のために採用されているが、その疎さが、高密度フィードフォワードネットワーク(FFN)よりも本質的に容易に解釈できるかどうかについては、未解決のままである。
我々は、$k$-sparse Probingを用いてMoEの専門家と高密度FFNを比較し、専門家ニューロンは、ルーティングがスペーサーになるにつれてギャップが広がるため、一貫してポリセマンティックでないことを発見した。
これは、スパーシティが個々のニューロンと専門家の双方をモノセマンティズムに圧力をかけることを示唆している。
この発見を活用すれば、より効果的な分析単位として、ニューロンから専門家レベルへのズームアウトが可能になります。
何百人ものエキスパートを自動的に解釈することで、このアプローチを検証する。
専門家は広い領域の専門家(例えば生物学)でも単純なトークンレベルのプロセッサでもない。
代わりに、言語操作や意味タスク(LaTeXで括弧を閉じるなど)に特化した、きめ細かいタスクエキスパートとして機能する。
以上の結果から,MoEは本質的に専門家レベルで解釈可能であることが示唆された。
コードは、https://github.com/jerryy33/MoE_analysisで入手できる。
関連論文リスト
- Dropping Experts, Recombining Neurons: Retraining-Free Pruning for Sparse Mixture-of-Experts LLMs [54.95810313530111]
DERNは、専門家のプルーニングと再構築のためのタスク非依存でトレーニングなしのフレームワークである。
コモンセンス推論やMMLUベンチマークでは、50%のエキスパートスパシティでパフォーマンスを5%以上向上させる。
論文 参考訳(メタデータ) (2025-09-12T16:09:39Z) - Mixture of Experts Made Intrinsically Interpretable [34.36996159677674]
我々は,emphintrinsically interpretableとして設計されたMixture-of-Experts (MoE)言語モデルである textbfMoE-X を提案する。
我々のアプローチは、言語モデルにおいて、スパースアクティベーションを持つより広いネットワークが解釈可能な要因を捉える傾向にあるという観察に動機づけられている。
MoE-X は GPT-2 よりもパープレキシティが良く、解釈性はスパースオートエンコーダ (SAE) ベースのアプローチを超えている。
論文 参考訳(メタデータ) (2025-03-05T17:40:54Z) - Monet: Mixture of Monosemantic Experts for Transformers [33.8311330578753]
トランスフォーマー(Monet)アーキテクチャのためのモノセマンティックエキスパート(Mixture of Monosemantic Experts)を紹介する。
Monetはスパース辞書学習を直接エンドツーエンドのMixture-of-Expertsプリトレーニングに組み込む。
本分析は,専門家間の知識の相互排他性を示し,各専門家にカプセル化されたパラメトリック知識を示す。
論文 参考訳(メタデータ) (2024-12-05T13:06:03Z) - Beyond Parameter Count: Implicit Bias in Soft Mixture of Experts [44.09546603624385]
ソフトモエの専門専門化について紹介する。
小さな専門家がたくさんいる場合、アーキテクチャは暗黙的に偏りがあり、専門的な専門家のサブセットを効率的に近似できることを示している。
論文 参考訳(メタデータ) (2024-09-02T00:39:00Z) - Generalization Error Analysis for Sparse Mixture-of-Experts: A Preliminary Study [65.11303133775857]
Mixture-of-Experts (MoE)計算アマルガメート予測
Sparse MoEは、限られた数、あるいは1つの専門家だけを選択的に扱うことで、経験的に保存され、時にはパフォーマンスが向上する一方で、オーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2024-03-26T05:48:02Z) - Multilinear Mixture of Experts: Scalable Expert Specialization through Factorization [51.98792406392873]
Mixture of Experts (MoE)は、高密度層をより小さくモジュール化された計算に分解する強力な方法を提供する。
大きな課題は、きめ細かい特殊化を達成するのに十分高い専門家の数をスケーリングする計算コストである。
視覚モデルに焦点をあて、この問題に対処するため、Multilinear Mixture of Experts(mu$MoE)層を提案する。
論文 参考訳(メタデータ) (2024-02-19T21:20:22Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。