論文の概要: Domain-Specific Pruning of Large Mixture-of-Experts Models with Few-shot Demonstrations
- arxiv url: http://arxiv.org/abs/2504.06792v1
- Date: Wed, 09 Apr 2025 11:34:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:07:34.513834
- Title: Domain-Specific Pruning of Large Mixture-of-Experts Models with Few-shot Demonstrations
- Title(参考訳): Few-shot Demonstrations を用いた大規模混合実験モデルのドメイン特化プルーニング
- Authors: Zican Dong, Han Peng, Peiyu Liu, Wayne Xin Zhao, Dong Wu, Feng Xiao, Zhifeng Wang,
- Abstract要約: 大規模MOEモデルにおける領域の特殊化と専門的冗長性について検討する。
本稿では,最も関係のある専門家のみを識別・保持するための簡易で効果的な刈取フレームワークであるEASY-EPを提案する。
提案手法は,DeepSeek-R1を完全かつ半分のエキスパートで,同じメモリ予算で同等の性能と2.99タイムのスループットを達成できる。
- 参考スコア(独自算出の注目度): 48.890534958441016
- License:
- Abstract: Mixture-of-Experts (MoE) models achieve a favorable trade-off between performance and inference efficiency by activating only a subset of experts. However, the memory overhead of storing all experts remains a major limitation, especially in large-scale MoE models such as DeepSeek-R1 (671B). In this study, we investigate domain specialization and expert redundancy in large-scale MoE models and uncover a consistent behavior we term few-shot expert localization, with only a few demonstrations, the model consistently activates a sparse and stable subset of experts. Building on this observation, we propose a simple yet effective pruning framework, EASY-EP, that leverages a few domain-specific demonstrations to identify and retain only the most relevant experts. EASY-EP comprises two key components: output-aware expert importance assessment and expert-level token contribution estimation. The former evaluates the importance of each expert for the current token by considering the gating scores and magnitudes of the outputs of activated experts, while the latter assesses the contribution of tokens based on representation similarities after and before routed experts. Experiments show that our method can achieve comparable performances and $2.99\times$ throughput under the same memory budget with full DeepSeek-R1 with only half the experts. Our code is available at https://github.com/RUCAIBox/EASYEP.
- Abstract(参考訳): Mixture-of-Experts (MoE)モデルは、専門家のサブセットのみを活性化することで、パフォーマンスと推論効率の良好なトレードオフを達成する。
しかし、特にDeepSeek-R1 (671B)のような大規模MoEモデルでは、すべての専門家を記憶する際のメモリオーバーヘッドが大きな制限となっている。
本研究では,大規模MOEモデルにおけるドメインの特殊化と専門家の冗長性について検討し,数発のエキスパートローカライゼーションという一貫した振る舞いを明らかにする。
そこで本研究では,本研究では,いくつかのドメイン固有の実演を活用して,最も関係のある専門家のみを特定し,保持する,シンプルで効果的な刈り取りフレームワークであるEASY-EPを提案する。
EASY-EPは2つの重要なコンポーネントで構成されている。
前者は、活性化された専門家の出力のゲーティングスコアと等級を考慮し、後者は、ルーティングされた専門家の前後の表現類似度に基づいてトークンの寄与を評価する。
実験の結果,DeepSeek-R1をフルに使用した同じメモリ予算で,本手法で同等の性能と2.99\times$スループットを実現することができた。
私たちのコードはhttps://github.com/RUCAIBox/EASYEPで利用可能です。
関連論文リスト
- Beyond Parameter Count: Implicit Bias in Soft Mixture of Experts [44.09546603624385]
ソフトモエの専門専門化について紹介する。
小さな専門家がたくさんいる場合、アーキテクチャは暗黙的に偏りがあり、専門的な専門家のサブセットを効率的に近似できることを示している。
論文 参考訳(メタデータ) (2024-09-02T00:39:00Z) - HoME: Hierarchy of Multi-Gate Experts for Multi-Task Learning at Kuaishou [19.113649341888532]
クアイショーのショートビデオサービスで学んだ実践的問題と教訓について紹介する。
業界では、広く使われているマルチタスクフレームワークはMixture-of-Experts(MoE)パラダイムである。
論文 参考訳(メタデータ) (2024-08-10T04:25:48Z) - Multi-Head Mixture-of-Experts [100.60556163597946]
MH-MoE(Multi-Head Mixture-of-Experts)を提案する。
MH-MoEは、他のSMoE最適化手法の実装と分離が容易であり、性能向上のために他のSMoEモデルとの統合が容易である。
論文 参考訳(メタデータ) (2024-04-23T13:47:09Z) - Generalization Error Analysis for Sparse Mixture-of-Experts: A Preliminary Study [65.11303133775857]
Mixture-of-Experts (MoE)計算アマルガメート予測
Sparse MoEは、限られた数、あるいは1つの専門家だけを選択的に扱うことで、経験的に保存され、時にはパフォーマンスが向上する一方で、オーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2024-03-26T05:48:02Z) - DeepSeekMoE: Towards Ultimate Expert Specialization in
Mixture-of-Experts Language Models [26.447210565680116]
本稿では,DeepSeekMoEアーキテクチャを究極的専門家専門化に向けて提案する。
1) 専門家を$mN$に細分化し、そこから$mK$を活性化し、活性化された専門家のより柔軟な組み合わせを可能にする。
We show that DeepSeekMoE achieves comparable performance with GShard 2.9B。
論文 参考訳(メタデータ) (2024-01-11T17:31:42Z) - Omni-SMoLA: Boosting Generalist Multimodal Models with Soft Mixture of Low-rank Experts [74.40198929049959]
大規模マルチモーダルモデル (LMM) は多くのタスクにまたがって優れた性能を示す。
ジェネラリストのLMMは、タスクの集合をチューニングする際に、しばしばパフォーマンスの劣化に悩まされる。
我々は,Omni-SMoLAを提案する。Omni-SMoLAはSoft MoEアプローチを用いて,多くのマルチモーダルな低ランクの専門家を混在させるアーキテクチャである。
論文 参考訳(メタデータ) (2023-12-01T23:04:27Z) - Merge, Then Compress: Demystify Efficient SMoE with Hints from Its Routing Policy [84.11508381847929]
わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。
ルーティング統計を利用したM-SMoEを提案する。
我々のMC-SMoEは最大80%のメモリと20%のFLOPを削減でき、性能は実質的に損なわれない。
論文 参考訳(メタデータ) (2023-10-02T16:51:32Z) - MoCaE: Mixture of Calibrated Experts Significantly Improves Object
Detection [18.059899772411033]
我々は、Deep Ensemblesと同様の方法で、専門的なオブジェクト検出器を"自然に組み合わせることによって、しばしば性能が劣化することを発見した。
この問題の主な原因は,専門家の予測が性能に合わないことである。
これを解決するため,エキスパートの混合を構築する際に,専門家の個人的パフォーマンスを反映した方法で,これらの予測を組み合わせることを提案する。
論文 参考訳(メタデータ) (2023-09-26T14:52:51Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。