論文の概要: Finding Fantastic Experts in MoEs: A Unified Study for Expert Dropping Strategies and Observations
- arxiv url: http://arxiv.org/abs/2504.05586v2
- Date: Thu, 10 Apr 2025 02:32:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 13:17:12.316085
- Title: Finding Fantastic Experts in MoEs: A Unified Study for Expert Dropping Strategies and Observations
- Title(参考訳): MoEsにおける幻想的専門家の発見--専門家の投下戦略と観察の統一的研究
- Authors: Ajay Jaiswal, Jianyu Wang, Yixiao Li, Pingzhi Li, Tianlong Chen, Zhangyang Wang, Chong Wang, Ruoming Pang, Xianzhi Du,
- Abstract要約: わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。
多様な視点から専門家の重要度を推定するためのベンチマークとして,MoE Experts Compression Suite (MC-Suite)を提案する。
我々は,SMoEsの指示追従能力が主に損なわれるという,実験的に検証された予想を提示する。
- 参考スコア(独自算出の注目度): 86.90549830760513
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparsely activated Mixture-of-Experts (SMoE) has shown promise in scaling up the learning capacity of neural networks. However, vanilla SMoEs have issues such as expert redundancy and heavy memory requirements, making them inefficient and non-scalable, especially for resource-constrained scenarios. Expert-level sparsification of SMoEs involves pruning the least important experts to address these limitations. In this work, we aim to address three questions: (1) What is the best recipe to identify the least knowledgeable subset of experts that can be dropped with minimal impact on performance? (2) How should we perform expert dropping (one-shot or iterative), and what correction measures can we undertake to minimize its drastic impact on SMoE subnetwork capabilities? (3) What capabilities of full-SMoEs are severely impacted by the removal of the least dominant experts, and how can we recover them? Firstly, we propose MoE Experts Compression Suite (MC-Suite), which is a collection of some previously explored and multiple novel recipes to provide a comprehensive benchmark for estimating expert importance from diverse perspectives, as well as unveil numerous valuable insights for SMoE experts. Secondly, unlike prior works with a one-shot expert pruning approach, we explore the benefits of iterative pruning with the re-estimation of the MC-Suite criterion. Moreover, we introduce the benefits of task-agnostic fine-tuning as a correction mechanism during iterative expert dropping, which we term MoE Lottery Subnetworks. Lastly, we present an experimentally validated conjecture that, during expert dropping, SMoEs' instruction-following capabilities are predominantly hurt, which can be restored to a robust level subject to external augmentation of instruction-following capabilities using k-shot examples and supervised fine-tuning.
- Abstract(参考訳): わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。
しかしながら、バニラSMoEには、専門家の冗長性や重いメモリ要件といった問題があり、特にリソース制約のあるシナリオでは非効率でスケールできない。
専門家レベルのSMoEのスパーシフィケーションは、これらの制限に対処するために、最も重要でない専門家を選別する。
1) パフォーマンスに最小限の影響を伴って落とせる専門家の知識の少ないサブセットを特定するのに最適なレシピは何ですか?
2)SMoEサブネットワーク機能に対する大幅な影響を最小限に抑えるために、専門家のドロップ(ワンショットか反復か)をどのように行うべきか。
(3)最も支配的な専門家の排除によって、フルSMoEの能力に深刻な影響を及ぼすものは何か。
まず,様々な視点から専門家の重要度を推定するための総合的なベンチマークを提供するとともに,SMoEの専門家にとって貴重な知見を多数提示するために,これまで検討されてきた新しいレシピの集合であるMoE Experts Compression Suite (MC-Suite)を提案する。
第2に, 従来の一発プルーニング法とは異なり, MC-Suite基準の再推定による反復プルーニングの利点について検討する。
さらに,反復型エキスパートドロップ時の修正機構としてタスク非依存の微調整の利点を導入し,これをMoE Lottery Subnetworksと呼ぶ。
最後に,SMoEsの指示追従能力は,kショット例と教師付き微調整を用いた命令追従能力の外部増強による頑健なレベルに復元できる,専門家の投下中に主に損傷を負うという実験的に検証された予想を示す。
関連論文リスト
- Domain-Specific Pruning of Large Mixture-of-Experts Models with Few-shot Demonstrations [48.890534958441016]
大規模MOEモデルにおける領域の特殊化と専門的冗長性について検討する。
本稿では,最も関係のある専門家のみを識別・保持するための簡易で効果的な刈取フレームワークであるEASY-EPを提案する。
提案手法は,DeepSeek-R1を完全かつ半分のエキスパートで,同じメモリ予算で同等の性能と2.99タイムのスループットを達成できる。
論文 参考訳(メタデータ) (2025-04-09T11:34:06Z) - S2MoE: Robust Sparse Mixture of Experts via Stochastic Learning [34.20340688374905]
SMOE(Sparse Mixture of Experts)は、入力トークンを特定の専門家にルーティングすることで、大規模な言語モデルの効率的なトレーニングを可能にする。
近年の研究では、この問題を軽減するためにルータの改善に重点を置いているが、既存のアプローチには2つの重要な制限がある。
本稿では,ロバスト学習(S2MoE)によるエキスパートのスパース混合(Sparse Mixture of Experts)という,決定論的および非決定論的入力から学習するために設計されたエキスパートの混合手法を提案する。
論文 参考訳(メタデータ) (2025-03-29T08:14:27Z) - Convergence Rates for Softmax Gating Mixture of Experts [78.3687645289918]
機械学習モデルの効率性とスケーラビリティを向上するための効果的なフレームワークとして、Mixture of Expert (MoE)が登場した。
MoEの成功の中心は、適応的なソフトマックスゲーティングメカニズムであり、各専門家の入力に対する関連性を決定する責任を負い、それぞれの重みを動的に専門家に割り当てる。
標準ソフトマックスゲーティングまたはその変種を備えたMoEの下で,パラメータ推定と専門家推定の収束解析を行い,密度とスパースゲーティングと階層ソフトマックスゲーティングを含む。
論文 参考訳(メタデータ) (2025-03-05T06:11:24Z) - Beyond Parameter Count: Implicit Bias in Soft Mixture of Experts [44.09546603624385]
ソフトモエの専門専門化について紹介する。
小さな専門家がたくさんいる場合、アーキテクチャは暗黙的に偏りがあり、専門的な専門家のサブセットを効率的に近似できることを示している。
論文 参考訳(メタデータ) (2024-09-02T00:39:00Z) - HoME: Hierarchy of Multi-Gate Experts for Multi-Task Learning at Kuaishou [19.113649341888532]
クアイショーのショートビデオサービスで学んだ実践的問題と教訓について紹介する。
業界では、広く使われているマルチタスクフレームワークはMixture-of-Experts(MoE)パラダイムである。
論文 参考訳(メタデータ) (2024-08-10T04:25:48Z) - Generalization Error Analysis for Sparse Mixture-of-Experts: A Preliminary Study [65.11303133775857]
Mixture-of-Experts (MoE)計算アマルガメート予測
Sparse MoEは、限られた数、あるいは1つの専門家だけを選択的に扱うことで、経験的に保存され、時にはパフォーマンスが向上する一方で、オーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2024-03-26T05:48:02Z) - Merge, Then Compress: Demystify Efficient SMoE with Hints from Its Routing Policy [84.11508381847929]
わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。
ルーティング統計を利用したM-SMoEを提案する。
我々のMC-SMoEは最大80%のメモリと20%のFLOPを削減でき、性能は実質的に損なわれない。
論文 参考訳(メタデータ) (2023-10-02T16:51:32Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。