論文の概要: Is Retraining-Free Enough? The Necessity of Router Calibration for Efficient MoE Compression
- arxiv url: http://arxiv.org/abs/2603.02217v1
- Date: Tue, 10 Feb 2026 08:04:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.078982
- Title: Is Retraining-Free Enough? The Necessity of Router Calibration for Efficient MoE Compression
- Title(参考訳): Retraining-free Enough? : 効率的なMoE圧縮のためのルータ校正の必要性
- Authors: Sieun Hyeon, Jaeyoung Do,
- Abstract要約: Mixture-of-Experts (MoE)モデルは、効率よくキャパシティをスケールするが、その巨大なパラメータフットプリントは、デプロイメント時のメモリボトルネックを生み出す。
我々は、トレーニングなしのMoE圧縮を、Expert Pruning、Expert Editing、Expert Mergingの3つのパラダイムに分類する。
圧縮後の持続的な劣化は、主に無視された要因である: 専門家が変更されてもルータは触れられていないときのルータ-専門家ミスマッチである。
- 参考スコア(独自算出の注目度): 8.26446202479213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts (MoE) models scale capacity efficiently, but their massive parameter footprint creates a deployment-time memory bottleneck. We organize retraining-free MoE compression into three paradigms - Expert Pruning, Expert Editing, and Expert Merging - and show that persistent post-compression degradation largely stems from a neglected factor: router-expert mismatch when experts are changed but the router is left untouched. We argue that effective retraining-free compression should avoid updating expert parameters while allowing lightweight router calibration. To this end, we propose Router Knowledge Distillation (Router KD), which updates only a tiny fraction of parameters (the router) by distilling the original model's next-token distribution on unlabeled calibration data. Experiments across representative methods in all three paradigms demonstrate consistent performance recovery, with substantially larger gains in fine-grained MoEs (many small experts) than in coarse-grained MoEs due to their more complex routing decision boundaries.
- Abstract(参考訳): Mixture-of-Experts (MoE)モデルは、効率よくキャパシティをスケールするが、その巨大なパラメータフットプリントは、デプロイメント時のメモリボトルネックを生み出す。
トレーニングなしのMoE圧縮を3つのパラダイム – Expert Pruning、Expert Editing、Expert Merging – に編成し、持続的な圧縮後の劣化が無視された要因に大きく起因していることを示す。
我々は、効率的なリトレーニングフリー圧縮は、軽量なルータキャリブレーションを許容しながら、専門家パラメータの更新を避けるべきであると論じる。
そこで本研究では,未ラベルキャリブレーションデータに基づいて,元のモデルの次トーケン分布を蒸留することにより,少数のパラメータ(ルータ)のみを更新するルータ知識蒸留(Router KD)を提案する。
すべての3つのパラダイムにおける代表的手法による実験は、より複雑なルーティング決定境界のため、より粒度の細かいMoE(多くの小さな専門家)の方が粗いMoEよりも大幅に増加し、一貫したパフォーマンス回復を示す。
関連論文リスト
- Least-Loaded Expert Parallelism: Load Balancing An Imbalanced Mixture-of-Experts [74.40169987564724]
エキスパート並列性(EP)は、複数のデバイスに専門家を分散させることで、MoEモデルをスケールするように設計されている。
極端な不均衡の下で、EPは少数の専門家に不均等な数のトークンを渡し、計算とメモリバウンドの障害を引き起こす。
本稿では,過剰なトークンと関連する専門家パラメータを過負荷デバイスから未利用デバイスへ動的に再帰する新しいEPアルゴリズムであるLast-Loaded Expert Parallelism (LLEP)を提案する。
論文 参考訳(メタデータ) (2026-01-23T18:19:15Z) - RepetitionCurse: Measuring and Understanding Router Imbalance in Mixture-of-Experts LLMs under DoS Stress [16.010076395422264]
分配不能のプロンプトはルーティング戦略を操作でき、特定のデバイス上で計算ボトルネックを発生させ、他のデバイスにアイドルを強いる。
この脆弱性を悪用するための低コストなブラックボックス戦略であるRepetitionCurseを提案する。
論文 参考訳(メタデータ) (2025-12-30T05:24:26Z) - REAP the Experts: Why Pruning Prevails for One-Shot MoE compression [5.517309667435783]
専門家の刈り取りは、生成タスクにおいて優れた戦略であることを示す。
ルータ重み付きエキスパートアクティベーション・プルーニング(REAP)を提案する。
提案手法は,Qwen3-Coder-480B と Kimi-K2 を用いて,コード生成およびツール呼び出しタスクの無作為な圧縮を実現する。
論文 参考訳(メタデータ) (2025-10-15T18:29:28Z) - ProxRouter: Proximity-Weighted LLM Query Routing for Improved Robustness to Outliers [14.831117443453165]
大規模言語モデル(LLM)クエリルータは、現代のAIプラットフォームにとって極めて重要である。
非パラメトリックルータにおけるバイアスと分散のバランスをとるために指数関数的に傾いたアグリゲーション機構を応用したProxを提案する。
論文 参考訳(メタデータ) (2025-10-10T20:28:14Z) - From Score Distributions to Balance: Plug-and-Play Mixture-of-Experts Routing [52.01745035243826]
Mixture-of-Experts (MoE)モデルは、各トークンを専門家のサブセットにルーティングすることで、パラメータキャパシティをスケールすることができる。
条件付きルーティングは、推論メモリの負荷をシフトし、デバイスごとに専門家の数を制限する。
本稿では,精度を保ちながら負荷のバランスをとるプラグイン・アンド・プレイ型推論時ルーティングアルゴリズムLASERを提案する。
論文 参考訳(メタデータ) (2025-09-29T16:29:17Z) - Optimizing MoE Routers: Design, Implementation, and Evaluation in Transformer Models [0.0]
Mixture of Experts (MoE)アーキテクチャは言語モデルのスケーラビリティを向上するが、そのパフォーマンスはトークンを専門の専門家に移すルータモジュールに依存している。
この研究は、MoEルータの設計の比較分析を提供し、その性能を効率的かつ効率的な大規模モデル展開のために最適化するための洞察を提供する。
論文 参考訳(メタデータ) (2025-06-19T15:55:43Z) - A Provably Effective Method for Pruning Experts in Fine-tuned Sparse Mixture-of-Experts [49.394145046409044]
本論文は,MoEモデルにおけるエキスパートの刈り取りに有効な手法として,初めて提案するものである。
理論的には、事前訓練されたモデルからルータl2ノルムを小さく変更することで、専門家のプルーニングを優先順位付けすることで、テスト精度の維持が保証される。
我々の理論解析は、単純化されたMoEアーキテクチャ上でのバイナリ分類タスクに重点を置いているが、我々の専門的なプルーニング手法は、大きな視覚的MoEモデルに基づいて検証されている。
論文 参考訳(メタデータ) (2024-05-26T17:52:58Z) - SMILE: Scaling Mixture-of-Experts with Efficient Bi-level Routing [47.11171833082974]
我々は、異種ネットワーク帯域を利用するSMILEを導入し、シングルステップのルーティングをバイレベルルーティングに分割する。
提案手法は, コンバージェンス速度を損なうことなく, コロッサルクリーンクローリングコーパスのプリトレーニングスループットにおいて, スイッチ変換器の2.5倍の高速化が得られることを示す。
論文 参考訳(メタデータ) (2022-12-10T03:44:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。