論文の概要: Domain-Specific Pruning of Large Mixture-of-Experts Models with Few-shot Demonstrations
- arxiv url: http://arxiv.org/abs/2504.06792v1
- Date: Wed, 09 Apr 2025 11:34:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 17:52:14.444999
- Title: Domain-Specific Pruning of Large Mixture-of-Experts Models with Few-shot Demonstrations
- Title(参考訳): Few-shot Demonstrations を用いた大規模混合実験モデルのドメイン特化プルーニング
- Authors: Zican Dong, Han Peng, Peiyu Liu, Wayne Xin Zhao, Dong Wu, Feng Xiao, Zhifeng Wang,
- Abstract要約: 大規模MOEモデルにおける領域の特殊化と専門的冗長性について検討する。
本稿では,最も関係のある専門家のみを識別・保持するための簡易で効果的な刈取フレームワークであるEASY-EPを提案する。
提案手法は,DeepSeek-R1を完全かつ半分のエキスパートで,同じメモリ予算で同等の性能と2.99タイムのスループットを達成できる。
- 参考スコア(独自算出の注目度): 48.890534958441016
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts (MoE) models achieve a favorable trade-off between performance and inference efficiency by activating only a subset of experts. However, the memory overhead of storing all experts remains a major limitation, especially in large-scale MoE models such as DeepSeek-R1 (671B). In this study, we investigate domain specialization and expert redundancy in large-scale MoE models and uncover a consistent behavior we term few-shot expert localization, with only a few demonstrations, the model consistently activates a sparse and stable subset of experts. Building on this observation, we propose a simple yet effective pruning framework, EASY-EP, that leverages a few domain-specific demonstrations to identify and retain only the most relevant experts. EASY-EP comprises two key components: output-aware expert importance assessment and expert-level token contribution estimation. The former evaluates the importance of each expert for the current token by considering the gating scores and magnitudes of the outputs of activated experts, while the latter assesses the contribution of tokens based on representation similarities after and before routed experts. Experiments show that our method can achieve comparable performances and $2.99\times$ throughput under the same memory budget with full DeepSeek-R1 with only half the experts. Our code is available at https://github.com/RUCAIBox/EASYEP.
- Abstract(参考訳): Mixture-of-Experts (MoE)モデルは、専門家のサブセットのみを活性化することで、パフォーマンスと推論効率の良好なトレードオフを達成する。
しかし、特にDeepSeek-R1 (671B)のような大規模MoEモデルでは、すべての専門家を記憶する際のメモリオーバーヘッドが大きな制限となっている。
本研究では,大規模MOEモデルにおけるドメインの特殊化と専門家の冗長性について検討し,数発のエキスパートローカライゼーションという一貫した振る舞いを明らかにする。
そこで本研究では,本研究では,いくつかのドメイン固有の実演を活用して,最も関係のある専門家のみを特定し,保持する,シンプルで効果的な刈り取りフレームワークであるEASY-EPを提案する。
EASY-EPは2つの重要なコンポーネントで構成されている。
前者は、活性化された専門家の出力のゲーティングスコアと等級を考慮し、後者は、ルーティングされた専門家の前後の表現類似度に基づいてトークンの寄与を評価する。
実験の結果,DeepSeek-R1をフルに使用した同じメモリ予算で,本手法で同等の性能と2.99\times$スループットを実現することができた。
私たちのコードはhttps://github.com/RUCAIBox/EASYEPで利用可能です。
関連論文リスト
- Unveiling Hidden Collaboration within Mixture-of-Experts in Large Language Models [5.211806751260724]
本稿では,専門家間の協調パターンを明らかにする階層型スパース辞書学習法を提案する。
また、コントリビューション・アウェア・エキスパート・プルーニング(CAEP)アルゴリズムを導入し、低コントリビューション・エキスパートを効果的に育成する。
論文 参考訳(メタデータ) (2025-04-16T04:06:15Z) - Finding Fantastic Experts in MoEs: A Unified Study for Expert Dropping Strategies and Observations [86.90549830760513]
わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。
多様な視点から専門家の重要度を推定するためのベンチマークとして,MoE Experts Compression Suite (MC-Suite)を提案する。
我々は,SMoEsの指示追従能力が主に損なわれるという,実験的に検証された予想を提示する。
論文 参考訳(メタデータ) (2025-04-08T00:49:08Z) - Convergence Rates for Softmax Gating Mixture of Experts [78.3687645289918]
機械学習モデルの効率性とスケーラビリティを向上するための効果的なフレームワークとして、Mixture of Expert (MoE)が登場した。
MoEの成功の中心は、適応的なソフトマックスゲーティングメカニズムであり、各専門家の入力に対する関連性を決定する責任を負い、それぞれの重みを動的に専門家に割り当てる。
標準ソフトマックスゲーティングまたはその変種を備えたMoEの下で,パラメータ推定と専門家推定の収束解析を行い,密度とスパースゲーティングと階層ソフトマックスゲーティングを含む。
論文 参考訳(メタデータ) (2025-03-05T06:11:24Z) - Beyond Parameter Count: Implicit Bias in Soft Mixture of Experts [44.09546603624385]
ソフトモエの専門専門化について紹介する。
小さな専門家がたくさんいる場合、アーキテクチャは暗黙的に偏りがあり、専門的な専門家のサブセットを効率的に近似できることを示している。
論文 参考訳(メタデータ) (2024-09-02T00:39:00Z) - Multi-Head Mixture-of-Experts [100.60556163597946]
MH-MoE(Multi-Head Mixture-of-Experts)を提案する。
MH-MoEは、他のSMoE最適化手法の実装と分離が容易であり、性能向上のために他のSMoEモデルとの統合が容易である。
論文 参考訳(メタデータ) (2024-04-23T13:47:09Z) - Generalization Error Analysis for Sparse Mixture-of-Experts: A Preliminary Study [65.11303133775857]
Mixture-of-Experts (MoE)計算アマルガメート予測
Sparse MoEは、限られた数、あるいは1つの専門家だけを選択的に扱うことで、経験的に保存され、時にはパフォーマンスが向上する一方で、オーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2024-03-26T05:48:02Z) - Merge, Then Compress: Demystify Efficient SMoE with Hints from Its Routing Policy [84.11508381847929]
わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。
ルーティング統計を利用したM-SMoEを提案する。
我々のMC-SMoEは最大80%のメモリと20%のFLOPを削減でき、性能は実質的に損なわれない。
論文 参考訳(メタデータ) (2023-10-02T16:51:32Z) - MoCaE: Mixture of Calibrated Experts Significantly Improves Object
Detection [18.059899772411033]
我々は、Deep Ensemblesと同様の方法で、専門的なオブジェクト検出器を"自然に組み合わせることによって、しばしば性能が劣化することを発見した。
この問題の主な原因は,専門家の予測が性能に合わないことである。
これを解決するため,エキスパートの混合を構築する際に,専門家の個人的パフォーマンスを反映した方法で,これらの予測を組み合わせることを提案する。
論文 参考訳(メタデータ) (2023-09-26T14:52:51Z) - Sparsely-gated Mixture-of-Expert Layers for CNN Interpretability [3.021134753248103]
小さいゲートのMixture of Expert (MoE)層が大きなトランスのスケーリングに成功している。
本研究では,コンピュータビジョンタスクのCNNに対して,スパースMOE層を適用し,モデル解釈性への影響を解析する。
論文 参考訳(メタデータ) (2022-04-22T09:40:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。