論文の概要: MoE-Pruner: Pruning Mixture-of-Experts Large Language Model using the Hints from Its Router
- arxiv url: http://arxiv.org/abs/2410.12013v1
- Date: Tue, 15 Oct 2024 19:22:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:44:51.132941
- Title: MoE-Pruner: Pruning Mixture-of-Experts Large Language Model using the Hints from Its Router
- Title(参考訳): MoE-Pruner:ルータのヒントを用いたMixture-of-Experts大言語モデル
- Authors: Yanyue Xie, Zhi Zhang, Ding Zhou, Cong Xie, Ziang Song, Xin Liu, Yanzhi Wang, Xue Lin, An Xu,
- Abstract要約: Mixture-of-Experts (MoE)アーキテクチャは、専門家のメモリ消費や冗長性といった課題に直面している。
入力アクティベーションとルータ重みを乗じて最小の重みを求める手法であるMoE-Prunerを提案する。
我々の刈り取り法は単発であり、再訓練や重み更新は不要である。
- 参考スコア(独自算出の注目度): 55.88046193872355
- License:
- Abstract: Mixture-of-Experts (MoE) architectures face challenges such as high memory consumption and redundancy in experts. Pruning MoE can reduce network weights while maintaining model performance. Motivated by the recent observation of emergent large magnitude features in Large Language Models (LLM) and MoE routing policy, we propose MoE-Pruner, a method that prunes weights with the smallest magnitudes multiplied by the corresponding input activations and router weights, on each output neuron. Our pruning method is one-shot, requiring no retraining or weight updates. We evaluate our method on Mixtral-8x7B and Mixtral-8x22B across multiple language benchmarks. Experimental results show that our pruning method significantly outperforms state-of-the-art LLM pruning methods. Furthermore, our pruned MoE models can benefit from a pretrained teacher model through expert-wise knowledge distillation, improving performance post-pruning. Experimental results demonstrate that the Mixtral-8x7B model with 50% sparsity maintains 99% of the performance of the original model after the expert-wise knowledge distillation.
- Abstract(参考訳): Mixture-of-Experts (MoE)アーキテクチャは、メモリ消費や専門家の冗長性といった課題に直面している。
プルーニングMoEは、モデル性能を維持しながら、ネットワーク重量を減らすことができる。
大規模言語モデル (LLM) と MoE ルーティングポリシにおける近年の大規模特徴の出現に触発されたMoE-Pruner は,各出力ニューロンに対して,対応する入力活性化とルータ重みを乗じて最小の重みを求める手法である。
我々の刈り取り法は単発であり、再訓練や重み更新は不要である。
我々は,Mixtral-8x7BとMixtral-8x22Bを複数の言語ベンチマークで比較した。
実験結果から, プレニング法は, 最先端のLLMプルーニング法よりも有意に優れていた。
さらに, 熟成したMoEモデルは, 専門知識の蒸留により, 事前学習した教師モデルの恩恵を受けることができる。
実験結果から,50%の疎水率を有するMixtral-8x7Bモデルは,専門知識蒸留後の原モデルの性能の99%を維持していることがわかった。
関連論文リスト
- GRIN: GRadient-INformed MoE [132.87651078514122]
Mixture-of-Experts (MoE)モデルは、エキスパートルーティングによるスパース計算により、密度の高いモデルよりも効果的にスケールする。
エキスパートルーティングのためのスパース勾配推定を組み込んだGRIN(GRadient-Informed MoE Training)を導入する。
我々のモデルは6.6Bの活性化パラメータしか持たないが、7Bの密度モデルより優れており、同じデータで訓練された14Bの密度モデルの性能と一致している。
論文 参考訳(メタデータ) (2024-09-18T17:00:20Z) - Examining Post-Training Quantization for Mixture-of-Experts: A Benchmark [46.72960840801211]
Mixture-of-Experts(MoE)アプローチは,大規模言語モデル(LLM)を拡張可能な方法を提供する
MoEは大きなメモリオーバーヘッドに悩まされており、モデル圧縮技術を必要とする。
本稿では,MoEブロックから個々の線形重みまで,粗さから細粒度まで,いくつかのMoE構造を考慮した量子化について検討する。
論文 参考訳(メタデータ) (2024-06-12T12:44:48Z) - A Provably Effective Method for Pruning Experts in Fine-tuned Sparse Mixture-of-Experts [49.394145046409044]
本論文は,MoEモデルにおけるエキスパートの刈り取りに有効な手法として,初めて提案するものである。
理論的には、事前訓練されたモデルからルータl2ノルムを小さく変更することで、専門家のプルーニングを優先順位付けすることで、テスト精度の維持が保証される。
我々の理論解析は、単純化されたMoEアーキテクチャ上でのバイナリ分類タスクに重点を置いているが、我々の専門的なプルーニング手法は、大きな視覚的MoEモデルに基づいて検証されている。
論文 参考訳(メタデータ) (2024-05-26T17:52:58Z) - Unchosen Experts Can Contribute Too: Unleashing MoE Models' Power by Self-Contrast [58.98411447739218]
Mixture-of-Experts (MoE) は、計算効率を保ちながら、モデルサイズをスケールするための顕著なアーキテクチャとして登場した。
本研究では,無声専門家を推論中に自己コントラスト的に活用する学習自由戦略である自己コントラスト混合(SCMoE)を提案する。
我々の手法は概念的には単純で計算量も軽量であり、グリージー復号法に比べて最小限の遅延を発生させる。
論文 参考訳(メタデータ) (2024-05-23T12:45:29Z) - NutePrune: Efficient Progressive Pruning with Numerous Teachers for Large Language Models [2.9449838351181374]
本研究では, 効率的なプログレッシブ・テラス・プルーニング法 (NutePrune) を提案する。
NutePruneは、1つの無傷モデルのみをロードし、さまざまなマスクやLoRAモジュールと統合することで、過剰なメモリコストを軽減する。
LLaMA-7B実験では、NutePruneはオリジナルのモデルの97.17%を20%の間隔で、95.07%を25%の間隔で維持している。
論文 参考訳(メタデータ) (2024-02-15T08:03:12Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。