論文の概要: AIMER: Calibration-Free Task-Agnostic MoE Pruning
- arxiv url: http://arxiv.org/abs/2603.18492v1
- Date: Thu, 19 Mar 2026 04:54:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.961776
- Title: AIMER: Calibration-Free Task-Agnostic MoE Pruning
- Title(参考訳): AIMER: Calibration-free Task-Agnostic MoE Pruning
- Authors: Zongfang Liu, Shengkun Tang, Yifan Shen, Huan Wang, Xin Yuan,
- Abstract要約: 簡単なキャリブレーションフリーの基準であるAIMERを導入する。
7Bから30B MoE言語モデル全体の25%と50%のプルーニング比率を16ベンチマークで比較すると、AIMERは一貫して、競争力のある、あるいはより強い全体的なパフォーマンスを提供する。
- 参考スコア(独自算出の注目度): 12.732331870876182
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts (MoE) language models increase parameter capacity without proportional per-token compute, but the deployment still requires storing all experts, making expert pruning important for reducing memory and serving overhead. Existing task-agnostic expert pruning methods are typically calibration-dependent: they estimate expert importance from routing or activation statistics on a calibration set, which makes pruning outcomes sensitive to the choice of calibration set and adds substantial preprocessing cost. We introduce AIMER (\textbf{A}bsolute mean over root mean square \textbf{IM}portance for \textbf{E}xpert \textbf{R}anking), a simple calibration-free criterion that yields clear within-layer score separation and distinct expert stratification. Across 7B to 30B MoE language models at 25\% and 50\% pruning ratios over 16 benchmarks, AIMER consistently delivers competitive or stronger overall performance against state-of-the-art calibration-based expert pruning baselines with only 0.22--1.27 seconds for scoring the experts.
- Abstract(参考訳): Mixture-of-Experts(MoE)言語モデルは、トーケン毎の比例計算なしでパラメータキャパシティを向上するが、それでもデプロイにはすべての専門家を保存する必要がある。
既存のタスクに依存しないプルーニング手法は、キャリブレーションセット上のルーティングやアクティベーション統計から専門家の重要度を推定し、キャリブレーションセットの選択に敏感なプルーニング結果をもたらし、かなりの前処理コストを増大させる。
AIMER (\textbf{A}bsolute mean over root mean \textbf{IM}portance for \textbf{E}xpert \textbf{R}anking), a simple calibration-free criterion that yields clear-layer score separation and distinct expert stratification。
7Bから30BのMoE言語モデルで16ベンチマークで25\%、50\%のプルーニング比率で、AIMERは一貫して、最先端のキャリブレーションベースのエキスパートプルーニングベースラインに対して、専門家の評価に0.22--1.27秒しかかからない、競争力あるいはより強い全体的なパフォーマンスを提供している。
関連論文リスト
- A Replicate-and-Quantize Strategy for Plug-and-Play Load Balancing of Sparse Mixture-of-Experts LLMs [64.8510381475827]
SMOE(Sparse Mixture-of-Experts)アーキテクチャは、大規模言語モデルを効率的にスケールするためにますます使われている。
SMoEモデルは専門家間で厳しい負荷不均衡に悩まされることが多く、専門家のごく一部がほとんどのトークンを受け取り、他のモデルは未利用である。
推定中のエキスパートルーティングの体系的解析を行い, (i) 負荷不均衡が持続し, バッチサイズが大きくなる, (ii) 選択頻度が, 専門家の重要度を確実に反映しない, (iii) 専門家の全体負荷と重要性を, キャリブレーションセットを用いて推定できる,という3つの知見を同定する。
論文 参考訳(メタデータ) (2026-02-23T15:11:16Z) - ECO: Quantized Training without Full-Precision Master Weights [58.97082407934466]
Error-Compensating (ECO)は、量子化されたパラメータに直接更新を適用することで、マスターウェイトを除去する。
ECO は最適値の定数半径近傍に収束するが、素早いマスターウェイト除去は学習率に逆比例する誤差を生じさせる。
論文 参考訳(メタデータ) (2026-01-29T18:35:01Z) - Scalable Utility-Aware Multiclass Calibration [53.28176049547449]
ユーティリティキャリブレーション(英: Utility calibration)は、特定のユーティリティ関数に対するキャリブレーション誤差を測定する一般的なフレームワークである。
我々は、このフレームワークが既存のキャリブレーションメトリクスを統一し、再解釈する方法を実証する。
論文 参考訳(メタデータ) (2025-10-29T12:32:14Z) - REAP the Experts: Why Pruning Prevails for One-Shot MoE compression [5.517309667435783]
専門家の刈り取りは、生成タスクにおいて優れた戦略であることを示す。
ルータ重み付きエキスパートアクティベーション・プルーニング(REAP)を提案する。
提案手法は,Qwen3-Coder-480B と Kimi-K2 を用いて,コード生成およびツール呼び出しタスクの無作為な圧縮を実現する。
論文 参考訳(メタデータ) (2025-10-15T18:29:28Z) - MoNE: Replacing Redundant Experts with Lightweight Novices for Structured Pruning of MoE [12.498106165046233]
Mixture-of-Experts (MoE)は、入力トークンごとに専門家のサブセットだけを活性化することにより、大規模言語モデルの効率的なスケーリングを可能にする。
MoNEは冗長な専門家を軽量な初心者に置き換え、効果的で堅牢なモデル圧縮を実現する。
論文 参考訳(メタデータ) (2025-07-01T03:02:59Z) - Adaptive Set-Mass Calibration with Conformal Prediction [60.47079469141295]
提案手法は,まず共形予測から始まり,所望のカバレッジを与えるラベルの集合を得る。
次に、共形制約に合わせて、質量正規化と温度スケーリングに基づくルールの2つの簡単なポストホックキャリブレータをインスタンス化する。
論文 参考訳(メタデータ) (2025-05-21T12:18:15Z) - Unified Sparse Mixture of Experts [14.774596844618396]
SMOE(Sparse Mixture of Experts)モデルは、一定の計算オーバーヘッドを維持しながら、モデルのキャパシティをスケールする。
本稿では,これらの制約に対処する統一スパース・ミックス・オブ・エキスパート(USMoE)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-29T07:15:12Z) - How to Prune Your Language Model: Recovering Accuracy on the "Sparsity
May Cry'' Benchmark [60.72725673114168]
下流データセットの微調整中における正確なBERTプルーニングの問題を再考する。
そこで我々は,SMCベンチマークの挑戦においても,プルーニングを成功させるための一般的なガイドラインを提案する。
論文 参考訳(メタデータ) (2023-12-21T03:11:30Z) - Calibration by Distribution Matching: Trainable Kernel Calibration
Metrics [56.629245030893685]
カーネルベースのキャリブレーションメトリクスを導入し、分類と回帰の両方で一般的なキャリブレーションの形式を統一・一般化する。
これらの指標は、異なるサンプル推定を許容しており、キャリブレーションの目的を経験的リスク最小化に組み込むのが容易である。
決定タスクにキャリブレーションメトリクスを調整し、正確な損失推定を行ない、後悔しない決定を行うための直感的なメカニズムを提供する。
論文 参考訳(メタデータ) (2023-10-31T06:19:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。