論文の概要: REAP the Experts: Why Pruning Prevails for One-Shot MoE compression
- arxiv url: http://arxiv.org/abs/2510.13999v1
- Date: Wed, 15 Oct 2025 18:29:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.582242
- Title: REAP the Experts: Why Pruning Prevails for One-Shot MoE compression
- Title(参考訳): REAP the Experts: なぜPruningがワンショットのMoE圧縮に有効か
- Authors: Mike Lasby, Ivan Lazarevich, Nish Sinnadurai, Sean Lie, Yani Ioannou, Vithursan Thangarasa,
- Abstract要約: 専門家の刈り取りは、生成タスクにおいて優れた戦略であることを示す。
ルータ重み付きエキスパートアクティベーション・プルーニング(REAP)を提案する。
提案手法は,Qwen3-Coder-480B と Kimi-K2 を用いて,コード生成およびツール呼び出しタスクの無作為な圧縮を実現する。
- 参考スコア(独自算出の注目度): 5.517309667435783
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparsely-activated Mixture-of-Experts (SMoE) models offer efficient pre-training and low latency but their large parameter counts create significant memory overhead, motivating research into expert compression. Contrary to recent findings favouring expert merging on discriminative benchmarks, we demonstrate that expert pruning is a superior strategy for generative tasks. We prove that merging introduces an irreducible error by causing a "functional subspace collapse", due to the loss of the router's independent, input-dependent control over experts. Leveraging this insight, we propose Router-weighted Expert Activation Pruning (REAP), a novel pruning criterion that considers both router gate-values and expert activation norms. Across a diverse set of SMoE models ranging from 20B to 1T parameters, REAP consistently outperforms merging and other pruning methods on generative benchmarks, especially at 50% compression. Notably, our method achieves near-lossless compression on code generation and tool-calling tasks with Qwen3-Coder-480B and Kimi-K2, even after pruning 50% of experts.
- Abstract(参考訳): スパース・アクティベートされたMixture-of-Experts(SMoE)モデルは、効率的な事前学習と低レイテンシを提供するが、その大きなパラメータ数はメモリオーバーヘッドを著しく増加させ、専門家の圧縮の研究を動機付けている。
差別的ベンチマークに専門家が組み合わさることを好む最近の研究結果とは対照的に、我々は、専門家の刈り取りが生成タスクにおいて優れた戦略であることを実証した。
我々は、ルータが独立して入力に依存しない専門家の制御を失うことによる「機能的サブスペース崩壊」を引き起こすことにより、マージが既約誤差をもたらすことを証明した。
この知見を活用し,ルータゲート値とエキスパートアクティベーション規範の両方を考慮した新しいプルータプルータプルータクリーニング基準であるReuter-weighted Expert Activation Pruning (REAP)を提案する。
20Bから1Tパラメータの多種多様なSMoEモデル全体において、REAPは、特に50%の圧縮で、マージやその他のプルーニング手法を一貫して上回っている。
特に,Qwen3-Coder-480B と Kimi-K2 を用いたコード生成およびツールコールタスクにおいて,50% のエキスパートをプルーニングした後でも,ほぼ無作為な圧縮を実現する。
関連論文リスト
- MC#: Mixture Compressor for Mixture-of-Experts Large Models [86.64315380917827]
Mixture-of-Experts (MoE)は、大きな言語モデル(LLM)と視覚言語モデル(VLM)をスパースアクティベーションによって拡張することで効果的にスケールする。
静的量子化と動的エキスパートプルーニングを組み合わせたフレームワークであるMC#(Mixture-Compressor-sharp)を提案する。
論文 参考訳(メタデータ) (2025-10-13T03:12:46Z) - Dropping Experts, Recombining Neurons: Retraining-Free Pruning for Sparse Mixture-of-Experts LLMs [54.95810313530111]
DERNは、専門家のプルーニングと再構築のためのタスク非依存でトレーニングなしのフレームワークである。
コモンセンス推論やMMLUベンチマークでは、50%のエキスパートスパシティでパフォーマンスを5%以上向上させる。
論文 参考訳(メタデータ) (2025-09-12T16:09:39Z) - Sub-MoE: Efficient Mixture-of-Expert LLMs Compression via Subspace Expert Merging [17.490596264046435]
Sub-MoE は Subspace Expert Merging による新しい MoE 圧縮フレームワークである。
我々の重要な洞察は、専門家の重み付けでSingular Value Decomposition(SVD)を共同で行うことです。
当社のSub-MoEは、既存のエキスパートプルーニングやマージ方法よりも大幅に優れています。
論文 参考訳(メタデータ) (2025-06-29T14:43:50Z) - MoE-I$^2$: Compressing Mixture of Experts Models through Inter-Expert Pruning and Intra-Expert Low-Rank Decomposition [32.97035551579975]
モデルサイズを小さくし,計算コストを低減させるために,MoEに適した2段階圧縮手法を提案する。
Qwen1.5-MoE-A2.7B、DeepSeek-V2-Lite、Mixtral-8$times$7Bの実験により、提案手法はモデルサイズを低減し、推論効率を向上させることができることを示した。
論文 参考訳(メタデータ) (2024-11-01T20:37:58Z) - Mixture Compressor for Mixture-of-Experts LLMs Gains More [71.0473038084673]
我々は、Mixture-of-Experts Large Language Model (MoE-LLMs) のためのトレーニング不要なMixture-Compressorを提案する。
我々のMCは静的量子化と動的プルーニングを統合し、より少ない精度でMoE-LLMの極端な圧縮を実現する。
例えば、2.54ビットでは、MCは76.6%を圧縮し、平均精度損失は3.8%である。
論文 参考訳(メタデータ) (2024-10-08T18:09:38Z) - How to Prune Your Language Model: Recovering Accuracy on the "Sparsity
May Cry'' Benchmark [60.72725673114168]
下流データセットの微調整中における正確なBERTプルーニングの問題を再考する。
そこで我々は,SMCベンチマークの挑戦においても,プルーニングを成功させるための一般的なガイドラインを提案する。
論文 参考訳(メタデータ) (2023-12-21T03:11:30Z) - Merge, Then Compress: Demystify Efficient SMoE with Hints from Its Routing Policy [84.11508381847929]
わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。
ルーティング統計を利用したM-SMoEを提案する。
我々のMC-SMoEは最大80%のメモリと20%のFLOPを削減でき、性能は実質的に損なわれない。
論文 参考訳(メタデータ) (2023-10-02T16:51:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。