論文の概要: SlimQwen: Exploring the Pruning and Distillation in Large MoE Model Pre-training
- arxiv url: http://arxiv.org/abs/2605.08738v2
- Date: Mon, 18 May 2026 06:29:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 23:51:08.220636
- Title: SlimQwen: Exploring the Pruning and Distillation in Large MoE Model Pre-training
- Title(参考訳): SlimQwen: 大規模MoEモデルプレトレーニングにおけるプルーニングと蒸留の探索
- Authors: Shengkun Tang, Zekun Wang, Bo Zheng, Liangyu Wang, Rui Men, Siqi Zhang, Xiulong Yuan, Zihan Qiu, Zhiqiang Shen, Dayiheng Liu,
- Abstract要約: 大規模プレトレーニングにおけるMoE圧縮の体系化について検討した。
事前訓練されたMoEのプルーニングは、ターゲットアーキテクチャをゼロからトレーニングする上で、一貫して優れています。
我々は,一貫した利得が得られるマルチトークン蒸留(MTP)を提案する。
- 参考スコア(独自算出の注目度): 57.41616809842774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Structured pruning and knowledge distillation (KD) are typical techniques for compressing large language models, but it remains unclear how they should be applied at pretraining scale, especially to recent mixture-of-experts (MoE) models. In this work, we systematically study MoE compression in large-scale pretraining, focusing on three key questions: whether pruning provides a better initialization than training from scratch, how expert compression choices affect the final model after continued training, and which training strategy is most effective. We have the following findings: First, across depth, width, and expert compression, pruning a pretrained MoE consistently outperforms training the target architecture from scratch under the same training budget. Second, different one-shot expert compression methods converge to similar final performance after large-scale continual pretraining. Motivated by this, we introduce a simple partial-preservation expert merging strategy that improves downstream performance across most benchmarks. Third, combining KD with the language modeling loss outperforms KD alone, particularly on knowledge-intensive tasks. We further propose multi-token prediction (MTP) distillation, which yields consistent gains. Finally, given the same training tokens, progressive pruning schedules outperform one-shot compression, suggesting that gradual architecture transitions lead to better optimization trajectories. Putting it all together, we compress Qwen3-Next-80A3B to a 23A2B model that retains competitive performance. These results offer practical guidance for efficient MoE compression at scale.
- Abstract(参考訳): 構造化プルーニングと知識蒸留(KD)は、大規模言語モデルを圧縮する典型的な手法であるが、特に最近の混合実験(MoE)モデルにおいて、事前学習の規模でどのように適用されるべきかは定かではない。
本研究は,大規模プレトレーニングにおけるMoE圧縮を体系的に研究し,pruningがスクラッチからのトレーニングよりも優れた初期化を提供するか,専門家による圧縮選択がトレーニング後の最終モデルにどのように影響するか,どのトレーニング戦略が最も効果的か,の3点に焦点をあてる。
第一に、深さ、幅、専門家による圧縮、事前訓練されたMoEのプルーニングは、同じトレーニング予算の下でターゲットアーキテクチャをゼロからトレーニングすることよりも一貫して優れています。
第2に、大規模な連続事前訓練の後、異なる一発専門家圧縮法が同様の最終性能に収束する。
これを受けて、ほとんどのベンチマークでダウンストリーム性能を改善する単純な部分保存専門家統合戦略を導入する。
第3に、KDと言語モデリング損失の組み合わせは、特に知識集約的なタスクにおいて、KD単独よりも優れている。
さらに,一貫した利得が得られるマルチトークン蒸留(MTP)を提案する。
最後に、同じトレーニングトークンが与えられた場合、プログレッシブプルーニングスケジュールはワンショット圧縮よりも優れており、段階的なアーキテクチャ移行がより良い最適化トラジェクトリにつながることを示唆している。
まとめると、競争性能を維持する23A2BモデルにQwen3-Next-80A3Bを圧縮する。
これらの結果は,MoE圧縮を大規模に効率的に行うための実用的なガイダンスを提供する。
関連論文リスト
- A Systematic Study of Compression Ordering for Large Language Models [0.5926203312586109]
本研究では,Qwen2.5 3Bモデルに適用した場合の知識蒸留,構造化プルーニング,低ビット量子化の方法について系統的に検討する。
実験により、量子化は最大のスタンドアロン圧縮を提供する一方で、プルーニングは適度な品質劣化をもたらすことが示された。
論文 参考訳(メタデータ) (2025-11-23T12:46:56Z) - Compressing Many-Shots in In-Context Learning [61.231471139896506]
マルチショットプロンプトを圧縮することにより,ICL推論のメモリと計算効率を向上させる手法を提案する。
まず,既存のプロンプト圧縮手法がマルチショット圧縮には有効でないことを示す。
本稿では,レイヤワイド圧縮手法であるMemComを提案する。
論文 参考訳(メタデータ) (2025-10-17T16:57:42Z) - Overtrained Language Models Are Harder to Fine-Tune [64.44743256512237]
大規模言語モデルは、成長を続けるトークン予算に基づいて事前訓練されている。
事前トレーニングの拡張により、モデルを微調整しにくくなり、最終的なパフォーマンスが低下することを示した。
論文 参考訳(メタデータ) (2025-03-24T23:11:56Z) - MultiPruner: Balanced Structure Removal in Foundation Models [1.8434042562191815]
近年,大規模な事前学習モデル (LPM) を刈り取るための最先端手法として,トランスフォーマーにおける非臨界残留ブロックの非臨界除去がモデルサイズ削減に有効であることを実証している。
我々はBlockPrunerを拡張し、MultiPrunerを提案する。
論文 参考訳(メタデータ) (2025-01-17T04:24:31Z) - Activations and Gradients Compression for Model-Parallel Training [85.99744701008802]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。
グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。
実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文 参考訳(メタデータ) (2024-01-15T15:54:54Z) - Retraining-free Model Quantization via One-Shot Weight-Coupling Learning [41.299675080384]
混合精度量子化(MPQ)は、層に不均一なビット幅を割り当てることで、モデルを効果的に圧縮することを提唱する。
MPQは典型的には、探索訓練された2段階のプロセスに編成される。
本稿では,混合精度モデル圧縮のためのワンショットトレーニング探索パラダイムを考案する。
論文 参考訳(メタデータ) (2024-01-03T05:26:57Z) - Just CHOP: Embarrassingly Simple LLM Compression [27.64461490974072]
LLM(Large Language Model)は、非並列の少数およびゼロショット推論機能を実現するが、高い計算フットプリントを実現する。
拡張言語モデル事前学習と組み合わせた単純なレイヤプルーニングは、7Bスケールでモデルの構造的および半構造化された圧縮に対して最先端の結果をもたらすことを示す。
また,より小さなBERT型モデルのタスク非依存圧縮において非常に効果的であった蒸留が,我々の単純な刈り取り技術に対して非効率になることを示す。
論文 参考訳(メタデータ) (2023-05-24T08:18:35Z) - CrAFT: Compression-Aware Fine-Tuning for Efficient Visual Task
Adaptation [3.043665249713003]
プルーニングや量子化といったポストトレーニング後の圧縮技術は、デプロイメントコストの削減に役立つ。
本稿では,ネットワーク圧縮を効果的に訓練するフレームワークCrAFTを提案する。
CrAFTアプローチは、単一のGPUで数分または数時間以内に微調整を行うため、無視可能なトレーニングオーバーヘッドを追加する。
論文 参考訳(メタデータ) (2023-05-08T07:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。