論文の概要: SlimMoE: Structured Compression of Large MoE Models via Expert Slimming and Distillation
- arxiv url: http://arxiv.org/abs/2506.18349v1
- Date: Mon, 23 Jun 2025 07:15:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.892979
- Title: SlimMoE: Structured Compression of Large MoE Models via Expert Slimming and Distillation
- Title(参考訳): SlimMoE:エキスパートスライミングと蒸留による大型MoEモデルの構造化圧縮
- Authors: Zichong Li, Chen Liang, Zixuan Zhang, Ilgee Hong, Young Jin Kim, Weizhu Chen, Tuo Zhao,
- Abstract要約: SlimMoEは、大規模なMoEモデルをより小さく効率的な変種に変換するための多段階圧縮フレームワークである。
このフレームワークを用いて、Phi 3.5-MoE (41.9Bトータル/6.6Bアクティベートパラメータ)を圧縮し、Phi-mini-MoE (7.6Bトータル/2.4Bアクティベートパラメータ)とPhi-tiny-MoE (3.8Bトータル/1.1Bアクティベートパラメータ)を生成する。
実験により、圧縮されたモデルが他のモデルと同等の大きさのモデルよりも優れ、より大きなモデルと競合し続けていることが示された。
- 参考スコア(独自算出の注目度): 82.53411922988039
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Mixture of Experts (MoE) architecture has emerged as a powerful paradigm for scaling large language models (LLMs) while maintaining inference efficiency. However, their enormous memory requirements make them prohibitively expensive to fine-tune or deploy in resource-constrained environments. To address this challenge, we introduce SlimMoE, a multi-stage compression framework for transforming large MoE models into much smaller, efficient variants without incurring the prohibitive costs of training from scratch. Our method systematically reduces parameter counts by slimming experts and transferring knowledge through intermediate stages, effectively mitigating the performance degradation common in one-shot pruning approaches. Using this framework, we compress Phi 3.5-MoE (41.9B total/6.6B activated parameters) to create Phi-mini-MoE (7.6B total/2.4B activated parameters) and Phi-tiny-MoE (3.8B total/1.1B activated parameters) using only 400B tokens--less than 10% of the original model's training data. These compressed models can be fine-tuned on a single GPU (A100 for Phi-mini-MoE, A6000 for Phi-tiny-MoE), making them highly suitable for academic and resource-limited settings. Our experiments demonstrate that these compressed models outperform others of similar size and remain competitive with larger models. For instance, Phi-mini-MoE achieves similar or better performance to Phi-3-mini using only 2/3 of the activated parameters and yields comparable MMLU scores to Llama 3.1 8B despite having significantly lower latency. Our findings demonstrate that structured pruning combined with staged distillation offers an effective path to creating high-quality, compact MoE models, paving the way for broader adoption of MoE architectures. We make our models publicly available at https://huggingface.co/microsoft/Phi-mini-MoE-instruct and https://huggingface.co/microsoft/Phi-tiny-MoE-instruct .
- Abstract(参考訳): Mixture of Experts (MoE)アーキテクチャは、推論効率を維持しながら、大規模言語モデル(LLM)をスケールするための強力なパラダイムとして登場した。
しかし、その膨大なメモリ要件は、リソース制約のある環境での微調整やデプロイを禁止的に高価にする。
この課題に対処するため,大規模なMoEモデルをスクラッチからトレーニングの禁止コストを発生させることなく,より小型で効率的なモデルに変換するマルチステージ圧縮フレームワークであるSlimMoEを紹介した。
提案手法は, 専門家をスリム化し, 中間段階を通して知識を伝達することにより, パラメータ数を体系的に削減し, ワンショットプルーニング手法に共通する性能劣化を効果的に軽減する。
このフレームワークを用いて、Phi 3.5-MoE (41.9Bトータル/6.6Bアクティベートパラメータ) を圧縮し、Phi-mini-MoE (7.6Bトータル/2.4Bアクティベートパラメータ) とPhi-tiny-MoE (3.8Bトータル/1.1Bアクティベートパラメータ) を生成する。
これらの圧縮モデルは、単一のGPU(Phi-mini-MoEはA100、Phi-tiny-MoEはA6000)で微調整できるため、学術的およびリソース制限の設定に非常に適している。
実験により、圧縮されたモデルが他のモデルと同等の大きさのモデルよりも優れ、より大きなモデルと競合し続けていることが示された。
例えば、Phi-mini-MoEは、アクティベートパラメータの2/3のみを使用してPhi-3-miniと類似またはより優れたパフォーマンスを実現し、レイテンシが著しく低いにもかかわらず、Llama 3.1 8Bと同等のMMLUスコアを出力する。
以上の結果から, 構造化プルーニングと蒸留を併用することで, 高品質でコンパクトなMoEモデルの構築に有効な経路が得られ, より広範なMoEアーキテクチャの採用が期待できることがわかった。
モデルはhttps://huggingface.co/microsoft/Phi-mini-MoE-instructとhttps://huggingface.co/microsoft/Phi-tiny-MoE-instructで公開しています。
関連論文リスト
- Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs [111.69640966866059]
ミキチャー・オブ・エキスパート(MoE)と1兆近いパラメータを持つ疎大言語モデル(LLM)が、最も有能な言語モデルの領域を支配している。
本稿では,Ascend NPU上でそのようなスケールを利用するレシピを明らかにすることを目的としている。
主な目的は、動的スパースモデル構造下でのコンピューティングリソースのより良い使用と、実際のハードウェアで期待されるパフォーマンス向上の実現である。
論文 参考訳(メタデータ) (2025-05-07T15:46:36Z) - CoSMoEs: Compact Sparse Mixture of Experts [14.576482330940262]
オンデバイス推論において,CoSMoE(Compact Sparse Mixture of Experts)を有効にする方法を示す。
特に、品質、メモリ、レイテンシの3つの主要なオンデバイスディメンションに取り組みます。
重量分解の専門家を導入し、MoEモデルの性能をさらに改善する。
論文 参考訳(メタデータ) (2025-02-28T23:25:11Z) - LaDiMo: Layer-wise Distillation Inspired MoEfier [1.6199400106794555]
本稿では,Transformerベースの非MoEモデルを最小限のトレーニングコストでMoEモデルに変換する新しいアルゴリズムLaDiMoを提案する。
100Kトークンのみを用いてLLaMA2-7BモデルをMoEモデルに変換することにより,本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-08-08T07:37:26Z) - Dense Training, Sparse Inference: Rethinking Training of Mixture-of-Experts Language Models [62.4691912312317]
Mixture-of-Experts (MoE)言語モデルは、性能を犠牲にすることなく、高密度モデルと比較して計算コストを2~4ドル削減することができる。
本稿では,強力な計算とパラメータ効率を実現するMOEモデル(DS-MoE)のためのハイブリッド密集型トレーニングおよびスパース推論フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-08T14:39:49Z) - Mobile V-MoEs: Scaling Down Vision Transformers via Sparse
Mixture-of-Experts [55.282613372420805]
我々は、資源制約された視覚アプリケーションにとってより魅力的な視覚変換器(ViT)をスケールダウンするために、スパースMOE(sparse MoEs)の使用について検討する。
我々は,個々のパッチではなく画像全体を専門家にルーティングする,シンプルでモバイルフレンドリーなMoE設計を提案する。
V-MoEs(V-MoEs)は高密度VTよりも性能と効率のトレードオフが優れていることを実証的に示す。
論文 参考訳(メタデータ) (2023-09-08T14:24:10Z) - Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for
Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。
我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文 参考訳(メタデータ) (2023-05-24T04:22:26Z) - Task-Specific Expert Pruning for Sparse Mixture-of-Experts [105.20605021416276]
Mixture-of-Experts (MoE) モデルは大規模な事前トレーニングには強力である。
MoEはクラウドやモバイル環境にデプロイするのは難しい。
本稿では,目標下流タスクの非専門的専門家を段階的に降ろす方法を提案する。
論文 参考訳(メタデータ) (2022-06-01T07:09:01Z) - DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to
Power Next-Generation AI Scale [27.684722514336546]
DeepSpeedライブラリの一部として,エンドツーエンドのMoEトレーニングおよび推論ソリューションであるDeepSpeed-MoEを紹介する。
DeepSpeed-MoEは、高品質の高密度モデルに比べて最大4.5倍高速で9倍の推論が可能な大規模なMoEモデルを提供するために、前例のないスケールと効率を提供する。
論文 参考訳(メタデータ) (2022-01-14T18:36:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。