論文の概要: Decoding Knowledge Attribution in Mixture-of-Experts: A Framework of Basic-Refinement Collaboration and Efficiency Analysis
- arxiv url: http://arxiv.org/abs/2505.24593v2
- Date: Wed, 11 Jun 2025 10:28:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-12 23:41:16.698207
- Title: Decoding Knowledge Attribution in Mixture-of-Experts: A Framework of Basic-Refinement Collaboration and Efficiency Analysis
- Title(参考訳): ミックス・オブ・エクササイズにおける知識属性の復号化:基本的な調整コラボレーションと効率分析の枠組み
- Authors: Junzhuo Li, Bo Wang, Xiuze Zhou, Peijie Jiang, Jia Liu, Xuming Hu,
- Abstract要約: MoEモデルは、"ミッドアクティベーション、遅延増幅"パターンにより、層ごとの効率を37%向上させる。
これらの洞察はMoEの解釈可能性を高め、効率性、特殊化、堅牢性のバランスをとるための原則を提供する。
- 参考スコア(独自算出の注目度): 20.528711033969035
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The interpretability of Mixture-of-Experts (MoE) models, especially those with heterogeneous designs, remains underexplored. Existing attribution methods for dense models fail to capture dynamic routing-expert interactions in sparse MoE architectures. To address this issue, we propose a cross-level attribution algorithm to analyze sparse MoE architectures (Qwen 1.5-MoE, OLMoE, Mixtral-8x7B) against dense models (Qwen 1.5-7B, Llama-7B, Mistral-7B). Results show MoE models achieve 37% higher per-layer efficiency via a "mid-activation, late-amplification" pattern: early layers screen experts, while late layers refine knowledge collaboratively. Ablation studies reveal a "basic-refinement" framework--shared experts handle general tasks (entity recognition), while routed experts specialize in domain-specific processing (geographic attributes). Semantic-driven routing is evidenced by strong correlations between attention heads and experts (r=0.68), enabling task-aware coordination. Notably, architectural depth dictates robustness: deep Qwen 1.5-MoE mitigates expert failures (e.g., 43% MRR drop in geographic tasks when blocking top-10 experts) through shared expert redundancy, whereas shallow OLMoE suffers severe degradation (76% drop). Task sensitivity further guides design: core-sensitive tasks (geography) require concentrated expertise, while distributed-tolerant tasks (object attributes) leverage broader participation. These insights advance MoE interpretability, offering principles to balance efficiency, specialization, and robustness.
- Abstract(参考訳): 混合実験(Mixture-of-Experts、MoE)モデルの解釈可能性、特に異質な設計のモデルについては、未解明のままである。
既存の高密度モデルへの帰属法は、スパースMoEアーキテクチャにおける動的ルーティング-エキスパート相互作用を捕捉できない。
この問題に対処するために,疎度MoEアーキテクチャ(Qwen 1.5-MoE,OLMoE,Mixtral-8x7B)を高密度モデル(Qwen 1.5-7B,Llama-7B,Mistral-7B)に対して解析するクロスレベル属性アルゴリズムを提案する。
その結果、MoEモデルは“中間活性化、後期増幅”パターンによって、レイヤごとの効率を37%向上することがわかった。
アブレーション研究では、共有された専門家が一般的なタスク(中心認識)を処理し、ルーティングされた専門家がドメイン固有の処理(地理学的属性)を専門とする「基本再定義」フレームワークが明らかにされている。
意味駆動ルーティングは、アテンションヘッドと専門家(r=0.68)の強い相関関係によって証明され、タスク認識の協調を可能にする。
深いQwen 1.5-MoEは専門家の失敗を軽減し(例えば、トップ10の専門家をブロックする際の地理的タスクを43%のMRRで減らす)、浅いOLMoEは深刻な劣化(76%の減少)する。
コアセンシティブなタスク(地理学)は専門知識を必要とするが、分散トレラントなタスク(オブジェクト属性)は幅広い参加を活用する。
これらの洞察はMoEの解釈可能性を高め、効率性、特殊化、堅牢性のバランスをとるための原則を提供する。
関連論文リスト
- Advancing Expert Specialization for Better MoE [22.570561334474252]
Mixture-of-Experts (MoE)モデルは、入力毎に専門家のサブセットだけを活性化することにより、大きな言語モデル(LLM)の効率的なスケーリングを可能にする。
一般的に使用される補助負荷分散損失は、しばしば専門家の重複と過度に均一なルーティングをもたらす。
本稿では,2つの相補的目的を取り入れた,シンプルで効果的な解を提案する。
論文 参考訳(メタデータ) (2025-05-28T13:09:47Z) - Complexity Experts are Task-Discriminative Learners for Any Image Restoration [80.46313715427928]
複雑性の専門家" - 様々な計算複雑性と受容的なフィールドを持つフレキシブルな専門家ブロックを紹介します。
この選好は、タスク固有の割り当てを効果的に推進し、適切な複雑さを持つ専門家にタスクを割り当てる。
提案したMoCE-IRモデルは最先端の手法より優れており、その効率性と実用性が確認されている。
論文 参考訳(メタデータ) (2024-11-27T15:58:07Z) - Generalization Error Analysis for Sparse Mixture-of-Experts: A Preliminary Study [65.11303133775857]
Mixture-of-Experts (MoE)計算アマルガメート予測
Sparse MoEは、限られた数、あるいは1つの専門家だけを選択的に扱うことで、経験的に保存され、時にはパフォーマンスが向上する一方で、オーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2024-03-26T05:48:02Z) - Harder Tasks Need More Experts: Dynamic Routing in MoE Models [58.18526590138739]
本稿では,Mixture of Experts(MoE)モデルのための新しい動的専門家選択フレームワークを提案する。
提案手法は,各入力に対する専門家選択の信頼性レベルに基づいて,専門家を動的に選択する。
論文 参考訳(メタデータ) (2024-03-12T13:41:15Z) - Multilinear Mixture of Experts: Scalable Expert Specialization through Factorization [51.98792406392873]
Mixture of Experts (MoE)は、高密度層をより小さくモジュール化された計算に分解する強力な方法を提供する。
大きな課題は、きめ細かい特殊化を達成するのに十分高い専門家の数をスケーリングする計算コストである。
視覚モデルに焦点をあて、この問題に対処するため、Multilinear Mixture of Experts(mu$MoE)層を提案する。
論文 参考訳(メタデータ) (2024-02-19T21:20:22Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z) - Sparsely-gated Mixture-of-Expert Layers for CNN Interpretability [3.021134753248103]
小さいゲートのMixture of Expert (MoE)層が大きなトランスのスケーリングに成功している。
本研究では,コンピュータビジョンタスクのCNNに対して,スパースMOE層を適用し,モデル解釈性への影響を解析する。
論文 参考訳(メタデータ) (2022-04-22T09:40:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。