論文の概要: Unveiling Super Experts in Mixture-of-Experts Large Language Models
- arxiv url: http://arxiv.org/abs/2507.23279v1
- Date: Thu, 31 Jul 2025 06:35:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:09.212144
- Title: Unveiling Super Experts in Mixture-of-Experts Large Language Models
- Title(参考訳): 実験用大言語モデルにおけるスペシャリストの発見
- Authors: Zunhai Su, Qingyuan Li, Hao Zhang, YuLei Qian, Yuchen Xie, Kehong Yuan,
- Abstract要約: わずかに活性化されたMixture-of-Experts(MoE)モデルは、大規模言語モデル(LLM)の学習能力を高めることを約束している。
本稿では,モデルの前方推論において,基礎となるメカニズムにおいて重要な役割を担っている専門家の別個のサブセットを初めて発見・調査する。
以上の結果から,MoE LLMはSEsに頼って注意シンクを誘導し,注意点の分布に欠かせないが,SEプルーニングによって著しく破壊されることが明らかとなった。
- 参考スコア(独自算出の注目度): 5.36587814108884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparsely activated Mixture-of-Experts (MoE) models have shown promise in enhancing the learning capacity of large language models (LLMs). Leveraging the intrinsic importance differences among experts, recent research has explored expert-level compression techniques to improve the efficiency of MoE LLMs. However, existing approaches often rely on empirical criteria to identify critical experts, lacking a deeper exploration and understanding of the heterogeneous importance of experts. In this study, we present the first discovery and investigation of a distinct subset of experts that play a crucial role in the underlying mechanisms during the model's forward inference. These experts are prevalent in open-source MoE LLMs, and despite their limited number, pruning them leads to a significant decline in model performance (e.g., pruning three causes Qwen3-30B-A3B to produce repetitive and uninformative outputs). We refer to these experts as Super Experts (SEs). Our comprehensive analysis provides progressively deeper insights into SEs. (i) SEs are characterized by rare but extreme activation outliers in the output of the down_proj, which give rise to massive activations in the hidden states between decoder layers. Moreover, the distribution of SEs remains model-specific and is unaffected by post-training processes. (ii) By pruning SEs, we assess their significance across a variety of tasks, revealing their considerable impact on the model's overall performance, particularly in mathematical reasoning. (iii) We further enhance our understanding of the influence of SEs compression. Our findings confirm that MoE LLMs rely on SEs to induce attention sinks, which are crucial for the distribution of attention scores but are significantly disrupted by SE pruning. The code is available at https://github.com/ZunhaiSu/Super-Experts-Profilling.
- Abstract(参考訳): わずかに活性化されたMixture-of-Experts(MoE)モデルは、大規模言語モデル(LLM)の学習能力を高めることを約束している。
近年、専門家間の本質的な重要性の差異を生かし、MoE LLMの効率を向上させるための専門家レベルの圧縮技術について検討している。
しかし、既存のアプローチは、しばしば専門家を特定するための経験的基準に依存しており、専門家の不均一な重要性の深い調査と理解を欠いている。
本研究では,モデルフォワード推論において,基礎となるメカニズムにおいて重要な役割を果たす専門家の別個のサブセットを初めて発見・調査する。
これらの専門家はオープンソースのMoE LLMで一般的であり、その数が少ないにもかかわらず、プルーニングによってモデル性能が大幅に低下する(例えば、Qwen3-30B-A3Bが繰り返しかつ非形式的な出力を生成する3つの原因をプルーニングする)。
これらの専門家をスーパーエキスパート(SE)と呼ぶ。
包括的な分析によって、SEに関する徐々に深い洞察が得られます。
i) SEは、down_projの出力において珍しいが極端な活性化異常により特徴づけられ、デコーダ層間の隠れ状態において大きな活性化を引き起こす。
さらに、SEsの分布はモデル特異的であり、後トレーニングプロセスの影響を受けない。
(II)SEを刈り取ることで、様々なタスクにおけるそれらの重要性を評価し、モデル全体の性能、特に数学的推論において、それらの影響を顕著に明らかにする。
(3)SEs圧縮の影響の理解をさらに強化する。
以上の結果から,MoE LLMはSEsに頼って注意シンクを誘導し,注意点の分布に欠かせないが,SEプルーニングによって著しく破壊されることが明らかとなった。
コードはhttps://github.com/ZunhaiSu/Super-Experts-Profillingで入手できる。
関連論文リスト
- Unveiling Hidden Collaboration within Mixture-of-Experts in Large Language Models [5.211806751260724]
本稿では,専門家間の協調パターンを明らかにする階層型スパース辞書学習法を提案する。
また、コントリビューション・アウェア・エキスパート・プルーニング(CAEP)アルゴリズムを導入し、低コントリビューション・エキスパートを効果的に育成する。
論文 参考訳(メタデータ) (2025-04-16T04:06:15Z) - Domain-Specific Pruning of Large Mixture-of-Experts Models with Few-shot Demonstrations [48.890534958441016]
本研究では,大規模MoEモデルにおける領域の特殊化と専門的冗長性について検討する。
本稿では,最も関係のある専門家のみを識別・保持するための簡易で効果的な刈取フレームワークであるEASY-EPを提案する。
DeepSeek-R1とDeepSeek-V3-0324の実験は、我々の手法が同じメモリ予算の下で同等の性能と2.99タイムのスループットを達成できることを示した。
論文 参考訳(メタデータ) (2025-04-09T11:34:06Z) - Finding Fantastic Experts in MoEs: A Unified Study for Expert Dropping Strategies and Observations [86.90549830760513]
わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。
多様な視点から専門家の重要度を推定するためのベンチマークとして,MoE Experts Compression Suite (MC-Suite)を提案する。
我々は,SMoEsの指示追従能力が主に損なわれるという,実験的に検証された予想を提示する。
論文 参考訳(メタデータ) (2025-04-08T00:49:08Z) - Let the Expert Stick to His Last: Expert-Specialized Fine-Tuning for Sparse Architectural Large Language Models [24.915387910764082]
エキスパート特化ファインチューニング(Expert-Specialized Fine-Tuning、ESFT)は、他の専門家やモジュールを凍結しながら、下流のタスクに最も関係のある専門家をチューニングする。
よりきめ細かい専門家によるMoEモデルは、下流タスクに最も関係のある専門家の組み合わせを選択する上でより有利である。
論文 参考訳(メタデータ) (2024-07-02T03:11:13Z) - Generalization Error Analysis for Sparse Mixture-of-Experts: A Preliminary Study [65.11303133775857]
Mixture-of-Experts (MoE)計算アマルガメート予測
Sparse MoEは、限られた数、あるいは1つの専門家だけを選択的に扱うことで、経験的に保存され、時にはパフォーマンスが向上する一方で、オーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2024-03-26T05:48:02Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。