論文の概要: EvoESAP: Non-Uniform Expert Pruning for Sparse MoE
- arxiv url: http://arxiv.org/abs/2603.06003v1
- Date: Fri, 06 Mar 2026 08:02:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.300727
- Title: EvoESAP: Non-Uniform Expert Pruning for Sparse MoE
- Title(参考訳): EvoESAP: スパースMoEで非統一専門家が批判
- Authors: Zongfang Liu, Shengkun Tang, Boyang Sun, Zhiqiang Shen, Xin Yuan,
- Abstract要約: textbfExpected textbfAcceptance textbfProxy (textbfESAP) は,プルーンドモデルがフルモデルとどの程度よく一致しているかを測定する投機的復号化型教師力メトリクスである。
固定されたグローバル予算の下で一様でない層単位の空間配置を最適化する進化的探索フレームワークであるEvoESAPを提案する。
- 参考スコア(独自算出の注目度): 42.738877185877634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse Mixture-of-Experts (SMoE) language models achieve strong capability at low per-token compute, yet deployment remains memory- and throughput-bound because the full expert pool must be stored and served. Post-training expert pruning reduces this cost, but most methods focus on which experts to prune within each layer and default to a uniform layer-wise sparsity allocation, even though the allocation can strongly affect performance. We decouple pruning into within-layer expert ranking and across-layer budget allocation, and introduce \textbf{E}xpected \textbf{S}peculative \textbf{A}cceptance \textbf{P}roxy (\textbf{ESAP}), a speculative-decoding-inspired, teacher-forced metric that measures how well a pruned model matches the full model. ESAP is bounded and stable, enabling cheap comparison of many candidates without costly autoregressive decoding. Building on ESAP, we propose EvoESAP, an evolutionary searching framework that optimizes a non-uniform layer-wise sparsity allocation under a fixed global budget while holding the within-layer pruning order fixed, making it a plug-and-play method with criteria such as Frequency, EAN, SEER, and REAP. Across 7B--30B SMoE LLMs at 25\% and 50\% sparsity, EvoESAP consistently discovers non-uniform allocations that improve open-ended generation (up to \textbf{+19.6\%} on MATH-500 at 50\% sparsity) while preserving competitive multiple-choice accuracy compared with uniform pruning at the same sparsity.
- Abstract(参考訳): SMOE(Sparse Mixture-of-Experts)言語モデルは、トーケン当たりの少ない計算で強力な能力を達成するが、完全なエキスパートプールを保存して提供しなければならないため、デプロイメントはメモリとスループットに縛られる。
トレーニング後のエキスパートプルーニングは、このコストを削減しますが、ほとんどのメソッドは、各レイヤ内でどの専門家をプルーし、デフォルトでは、アロケーションがパフォーマンスに強く影響しても、均一なレイヤ単位のスパシティアロケーションにするかに重点を置いています。
我々は、プルーニングを層内の専門家ランキングと層内予算配分に分離し、プルーニングモデルがフルモデルとどの程度よく一致するかを測る投機的デコードインスパイアされた教師強制計量である、textbf{E}xpected \textbf{S}peculative \textbf{A}cceptance \textbf{P}roxy (\textbf{ESAP})を導入する。
ESAPはバウンドで安定しており、コストのかかる自己回帰デコードなしで多くの候補を安価に比較できる。
ESAPをベースとした進化的探索フレームワークであるEvoESAPを提案する。EvoESAPは、固定された大域的予算の下で、層内プルーニング順序を固定しつつ、一様でない層間空間配置を最適化し、周波数、EAN、SEER、REAPなどの基準付きプラグ・アンド・プレイ方式である。
7B--30B SMoE LLM は 25 % と 50 % の間隔で、EvoESAP は、同じ間隔での均一プルーニングと競合する多重選択精度を維持しながら、オープンエンド生成を改善する非一様割当(MATH-500 上の \textbf{+19.6\%} まで)を常に発見している。
関連論文リスト
- Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。
本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。
刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文 参考訳(メタデータ) (2026-03-04T14:48:53Z) - UniPruning: Unifying Local Metric and Global Feedback for Scalable Sparse LLMs [46.12497343562301]
大規模言語モデル (LLM) は様々なタスクにまたがって高いパフォーマンスを達成するが、計算とメモリのコストは禁じられている。
We present UniPruning, a unified post-training pruning framework that with the speed of local saliency metrics and the stability of global coordinate。
UniPruningは、競争力または優れたパープレクティリティとゼロショットの精度を一貫して提供する。
論文 参考訳(メタデータ) (2025-09-29T13:38:28Z) - DiEP: Adaptive Mixture-of-Experts Compression through Differentiable Expert Pruning [24.59026258291765]
既存のMoEプルーニング法は、様々なMoE層で専門家の冗長性が異なるため、最適以下の結果と性能劣化をもたらすことが多い。
我々は、層間重要度を共同学習しながら、層レベルでのプルーニング率を適応的に調整する、textbfDiEPと呼ばれる、一様でないプルーニング戦略を提案する。
本手法は,非一様専門家の組み合わせを指数関数的に増加させ,適応的勾配に基づくプルーニングを可能にする。
論文 参考訳(メタデータ) (2025-09-19T15:47:42Z) - MaskPro: Linear-Space Probabilistic Learning for Strict (N:M)-Sparsity on Large Language Models [53.36415620647177]
半構造化された空間は、M$M$の重みからN$の要素を戦略的に保持することで、有望なソリューションを提供する。
既存の(N:M)互換のアプローチは通常、かなりのエラーに悩まされるルールベースの階層的な欲求探索と、禁止的なトレーニングコストを引き起こす勾配駆動学習の2つのカテゴリに分類される。
MaskProという新しい線形空間確率的フレームワークを提案する。これは、M$連続重みごとに事前のカテゴリー分布を学習し、その後、この分布を活用して(N:M)スパーシリティを$N$-wayサンプリングを通じて生成することを目的としている。
論文 参考訳(メタデータ) (2025-06-15T15:02:59Z) - Týr-the-Pruner: Structural Pruning LLMs via Global Sparsity Distribution Optimization [16.627496870394456]
T'yr-the-Prunerは、効率的なエンドツーエンド検索ベースのグローバルな構造解析フレームワークである。
実効的な局所刈り取りと,スーパーネット構築を改善するための予測誤差蓄積手法を導入する。
以上の結果から,T'yr-the-Prunerは高密度モデルの性能の97%を保ちながら,最先端構造解析を実現していることがわかった。
論文 参考訳(メタデータ) (2025-03-12T11:52:49Z) - Towards Efficient Automatic Self-Pruning of Large Language Models [55.90119819642064]
トレーニング後の構造化プルーニングは、トレーニングを必要とせずに大規模言語モデルを熟成する有望なソリューションである。
この問題を緩和する鍵は、各レイヤのプルーニング率を正確に決定することにある、と我々は主張する。
我々は、レイヤワイドプルーニングレートを効率的に検索するLLMのためのエンドツーエンドの自動自動プルーニングフレームワークである$textbfSelf-Prunerを紹介した。
論文 参考訳(メタデータ) (2025-02-20T09:59:50Z) - Smoothed Normalization for Efficient Distributed Private Optimization [54.197255548244705]
フェデレートされた学習は、参加者のプライバシを備えた機械学習モデルを可能にする。
トレーニングやフィードバックのない問題に対して、差分にプライベートな分散手法は存在しない。
証明可能な収束保証付き分散アルゴリズム$alpha$-$sf NormEC$を導入する。
論文 参考訳(メタデータ) (2025-02-19T07:10:32Z) - [Reproducibility Report] Rigging the Lottery: Making All Tickets Winners [1.6884611234933766]
スパーストレーニングアルゴリズムである$textitRigL$は、既存の密集型トレーニング技術のパフォーマンスに適合または超過したスパースネットワークを直接トレーニングする、と主張している。
Pytorchのスクラッチから$textitRigL$を実装し、報告された値の0.1%以内でCIFAR-10のパフォーマンスを再現する。
論文 参考訳(メタデータ) (2021-03-29T17:01:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。