論文の概要: Does a Global Perspective Help Prune Sparse MoEs Elegantly?
- arxiv url: http://arxiv.org/abs/2604.06542v1
- Date: Wed, 08 Apr 2026 00:41:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.276823
- Title: Does a Global Perspective Help Prune Sparse MoEs Elegantly?
- Title(参考訳): グローバル・パースペクティブ(Global Perspective)は、スパースモーメントをエレガントに助けるか?
- Authors: Zeliang Zhang, Nikhil Ghosh, Jiani Liu, Bin Yu, Xiaodong Liu,
- Abstract要約: 既存のプルーニング手法は、通常、平らなMoEで生じる不均一な冗長性を見渡して、層全体に均一に予算を割り当てる。
GRAPE(Global Redundancy-Aware Pruning of Experts)は,多層冗長性に基づいて動的にプルーニング予算を割り当てるグローバルプルーニング戦略である。
Mixtral-8x7B、Mixtral-8x22B、DeepSeek-MoE、Qwen-MoE、およびGPT-OSSの実験では、同じプルーニング予算の下では、GRAPEは一貫して最高の平均性能を達成している。
- 参考スコア(独自算出の注目度): 21.594202826999958
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Empirical scaling laws for language models have encouraged the development of ever-larger LLMs, despite their growing computational and memory costs. Sparse Mixture-of-Experts (MoEs) offer a promising alternative by activating only a subset of experts per forward pass, improving efficiency without sacrificing performance. However, the large number of expert parameters still leads to substantial memory consumption. Existing pruning methods typically allocate budgets uniformly across layers, overlooking the heterogeneous redundancy that arises in sparse MoEs. We propose GRAPE (Global Redundancy-Aware Pruning of Experts, a global pruning strategy that dynamically allocates pruning budgets based on cross-layer redundancy. Experiments on Mixtral-8x7B, Mixtral-8x22B, DeepSeek-MoE, Qwen-MoE, and GPT-OSS show that, under the same pruning budget, GRAPE consistently achieves the best average performance. On the three main models reported in the paper, it improves average accuracy over the strongest local baseline by 1.40% on average across pruning settings, with gains of up to 2.45%.
- Abstract(参考訳): 言語モデルの実証的なスケーリング法則は、計算とメモリコストの増大にもかかわらず、より大型のLSMの開発を奨励している。
Sparse Mixture-of-Experts (MoEs)は、フォワードパス当たりのエキスパートのサブセットのみを活性化し、パフォーマンスを犠牲にすることなく効率を向上することで、有望な代替手段を提供する。
しかし、多くの専門家パラメータが依然としてメモリ消費に繋がる。
既存のプルーニング法は、通常、平らなMoEで生じる不均一な冗長性を見渡して、層全体に均一に予算を割り当てる。
本稿では,GRAPE(Global Redundancy-Aware Pruning of Experts)を提案する。
Mixtral-8x7B、Mixtral-8x22B、DeepSeek-MoE、Qwen-MoE、およびGPT-OSSの実験では、同じプルーニング予算の下では、GRAPEは一貫して最高の平均性能を達成している。
論文で報告された3つの主要モデルでは、最強のローカルベースラインよりも平均精度を1.40%向上させ、最大2.45%のゲインを達成している。
関連論文リスト
- EvoESAP: Non-Uniform Expert Pruning for Sparse MoE [42.738877185877634]
textbfExpected textbfAcceptance textbfProxy (textbfESAP) は,プルーンドモデルがフルモデルとどの程度よく一致しているかを測定する投機的復号化型教師力メトリクスである。
固定されたグローバル予算の下で一様でない層単位の空間配置を最適化する進化的探索フレームワークであるEvoESAPを提案する。
論文 参考訳(メタデータ) (2026-03-06T08:02:58Z) - MoDES: Accelerating Mixture-of-Experts Multimodal Large Language Models via Dynamic Expert Skipping [52.02659589971978]
我々は,MoE MLLM推論を効果的かつ正確なものにするために,専門家を適応的にスキップする最初のトレーニングフリーフレームワークであるMoDESを提案する。
MoDESは推論速度を大幅に向上させ、プリフィルタイムを2.16$times$、デコードタイムを1.26$times$に改善する。
論文 参考訳(メタデータ) (2025-11-19T18:48:27Z) - MoNE: Replacing Redundant Experts with Lightweight Novices for Structured Pruning of MoE [12.498106165046233]
Mixture-of-Experts (MoE)は、入力トークンごとに専門家のサブセットだけを活性化することにより、大規模言語モデルの効率的なスケーリングを可能にする。
MoNEは冗長な専門家を軽量な初心者に置き換え、効果的で堅牢なモデル圧縮を実現する。
論文 参考訳(メタデータ) (2025-07-01T03:02:59Z) - Týr-the-Pruner: Structural Pruning LLMs via Global Sparsity Distribution Optimization [16.627496870394456]
T'yr-the-Prunerは、効率的なエンドツーエンド検索ベースのグローバルな構造解析フレームワークである。
実効的な局所刈り取りと,スーパーネット構築を改善するための予測誤差蓄積手法を導入する。
以上の結果から,T'yr-the-Prunerは高密度モデルの性能の97%を保ちながら,最先端構造解析を実現していることがわかった。
論文 参考訳(メタデータ) (2025-03-12T11:52:49Z) - MoE-I$^2$: Compressing Mixture of Experts Models through Inter-Expert Pruning and Intra-Expert Low-Rank Decomposition [32.97035551579975]
モデルサイズを小さくし,計算コストを低減させるために,MoEに適した2段階圧縮手法を提案する。
Qwen1.5-MoE-A2.7B、DeepSeek-V2-Lite、Mixtral-8$times$7Bの実験により、提案手法はモデルサイズを低減し、推論効率を向上させることができることを示した。
論文 参考訳(メタデータ) (2024-11-01T20:37:58Z) - Merging Experts into One: Improving Computational Efficiency of Mixture
of Experts [71.44422347502409]
スパースミキチャー・オブ・エキスパート(MoE)は、パラメータの小さなサブセットをアクティベートすることでコストを削減することができる。
計算コストを大幅に高めることなく、より多くの専門家を追加するという利点を維持できるだろうか?
そこで我々は,textbftexttMerging Experts into One (MEO) という計算効率のよい手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T13:28:42Z) - ECoFLaP: Efficient Coarse-to-Fine Layer-Wise Pruning for Vision-Language
Models [70.45441031021291]
LVLM(Large Vision-Language Models)は、様々なモダリティから豊富な情報を統合することで、世界を包括的に理解することができる。
LVLMは計算/エネルギーの膨大なコストと炭素消費のためにしばしば問題となる。
本稿では,LVLMの2段間粗大な重み付け法であるECoFLaP(Efficient Coarse-to-Fine LayerWise Pruning)を提案する。
論文 参考訳(メタデータ) (2023-10-04T17:34:00Z) - Advancing Model Pruning via Bi-level Optimization [89.88761425199598]
イテレーティブ・マグニチュード・プルーニング(IMP)は,「入賞券」の発見に成功するプルーニング法である
ワンショットプルーニング法が開発されているが、これらのスキームは通常IMPほど勝利のチケットを見つけることができない。
提案手法は,双線形問題構造を持つBLO問題の特別なクラスであることを示す。
論文 参考訳(メタデータ) (2022-10-08T19:19:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。