論文の概要: Ban&Pick: Achieving Free Performance Gains and Inference Speedup via Smarter Routing in MoE-LLMs
- arxiv url: http://arxiv.org/abs/2509.06346v1
- Date: Mon, 08 Sep 2025 05:38:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.982521
- Title: Ban&Pick: Achieving Free Performance Gains and Inference Speedup via Smarter Routing in MoE-LLMs
- Title(参考訳): Ban&Pick: MoE-LLMのスマートルーティングによるフリーパフォーマンス向上と推論スピードアップを実現する
- Authors: Yuanteng Chen, Peisong Wang, Yuantian Shao, Jian Cheng,
- Abstract要約: 我々は、よりスマートなMoEルーティングのためのポストトレーニング、プラグイン・アンド・プレイ戦略であるBan&Pickを紹介する。
Ban&Pickは、トレーニングやアーキテクチャの変更なしに、無料のパフォーマンス向上と推論アクセラレーションを提供する。
例えばQwen3-30B-A3Bでは、AIME2024では80.67から84.66に、GPQA-ダイアモンドでは65.66から68.18に改善され、vLLMでは1.25倍の推論が加速される。
- 参考スコア(独自算出の注目度): 25.27147729066472
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse Mixture-of-Experts (MoE) has become a key architecture for scaling large language models (LLMs) efficiently. Recent fine-grained MoE designs introduce hundreds of experts per layer, with multiple experts activated per token, enabling stronger specialization. However, during pre-training, routers are optimized mainly for stability and robustness: they converge prematurely and enforce balanced usage, limiting the full potential of model performance and efficiency. In this work, we uncover two overlooked issues: (i) a few highly influential experts are underutilized due to premature and balanced routing decisions; and (ii) enforcing a fixed number of active experts per token introduces substantial redundancy. Instead of retraining models or redesigning MoE architectures, we introduce Ban&Pick, a post-training, plug-and-play strategy for smarter MoE routing. Pick discovers and reinforces key experts-a small group with outsized impact on performance-leading to notable accuracy gains across domains. Ban complements this by dynamically pruning redundant experts based on layer and token sensitivity, delivering faster inference with minimal accuracy loss. Experiments on fine-grained MoE-LLMs (DeepSeek, Qwen3) across math, code, and general reasoning benchmarks demonstrate that Ban&Pick delivers free performance gains and inference acceleration without retraining or architectural changes. For instance, on Qwen3-30B-A3B, it improves accuracy from 80.67 to 84.66 on AIME2024 and from 65.66 to 68.18 on GPQA-Diamond, while accelerating inference by 1.25x under the vLLM.
- Abstract(参考訳): Sparse Mixture-of-Experts (MoE) は大規模言語モデル(LLM)を効率的にスケーリングするための重要なアーキテクチャとなっている。
最近の細かいMoE設計では、層ごとに数百のエキスパートが登場し、トークンごとに複数のエキスパートがアクティベートされ、より強力な特殊化が実現されている。
しかし、事前トレーニングの間、ルータは主に安定性と堅牢性のために最適化されており、それらは早期に収束し、バランスの取れた使用を強制し、モデル性能と効率の完全なポテンシャルを制限する。
この研究で、見過ごされた2つの問題を発見しました。
(i)未熟かつバランスの取れた経路決定のため、非常に影響力のある専門家が不足していること。
(二)トークンごとに一定の数のアクティブエキスパートを強制することは、かなりの冗長性をもたらす。
モデルの再トレーニングやMoEアーキテクチャの再設計の代わりに、よりスマートなMoEルーティングのためのポストトレーニング、プラグイン・アンド・プレイ戦略であるBan&Pickを紹介します。
Pickは重要な専門家の発見と強化を行う - パフォーマンス向上に大きな影響を与える小さなグループで、ドメイン間での顕著な精度向上に寄与する。
Ban氏は、レイヤとトークンの感度に基づいて、冗長な専門家を動的に刈り取ることでこれを補完する。
数学、コード、一般的な推論ベンチマークを含む詳細なMoE-LLM(DeepSeek, Qwen3)の実験では、Ban&Pickは、トレーニングやアーキテクチャの変更なしに、無料のパフォーマンス向上と推論アクセラレーションを提供する。
例えばQwen3-30B-A3Bでは、AIME2024では80.67から84.66に、GPQA-ダイアモンドでは65.66から68.18に改善され、vLLMでは1.25倍の推論が加速される。
関連論文リスト
- Accelerating MoE Model Inference with Expert Sharding [1.4733737463429546]
専門家の混合モデル(MoE)は、言語モデリングにおいて最先端の結果を得るが、不均衡なトークンルーティングと通信オーバーヘッドにより、非効率なハードウェア利用に悩まされる。
我々は,MoEエキスパートのテンソルシャーディングを通じて,完全な負荷分散を実現する推論システムであるMoEShardを紹介する。
論文 参考訳(メタデータ) (2025-03-11T14:15:01Z) - Lynx: Enabling Efficient MoE Inference through Dynamic Batch-Aware Expert Selection [0.3308833414816073]
MoEは選択的な専門家アクティベーションのために設計されており、すべての専門家のアクティベーションを強制し、デコードフェーズ中にMoEの効率を無効にする。
動的でバッチ対応のエキスパート選択による効率的なMoE推論を可能にするシステムであるLynxを提案する。
評価の結果、Lynxはベースラインモデルから無視できる精度損失を維持しつつ、推論遅延の最大1.55倍の低減を実現していることがわかった。
論文 参考訳(メタデータ) (2024-11-13T19:18:08Z) - HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - Mixture Compressor for Mixture-of-Experts LLMs Gains More [71.0473038084673]
我々は、Mixture-of-Experts Large Language Model (MoE-LLMs) のためのトレーニング不要なMixture-Compressorを提案する。
我々のMCは静的量子化と動的プルーニングを統合し、より少ない精度でMoE-LLMの極端な圧縮を実現する。
例えば、2.54ビットでは、MCは76.6%を圧縮し、平均精度損失は3.8%である。
論文 参考訳(メタデータ) (2024-10-08T18:09:38Z) - AdapMoE: Adaptive Sensitivity-based Expert Gating and Management for Efficient MoE Inference [13.263938935671646]
AdapMoEは、効率的なMoE推論のためのアルゴリズムとシステムの共同設計フレームワークである。
AdapMoEは、オンデマンドのロードオーバーヘッドを減らすために、アダプティブなエキスパートゲーティングと管理機能を備えている。
AdapMoEは既存の技術より一貫して優れており、アクティベートされた専門家の平均数が25%減少し、精度を低下させることなく1.35倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2024-08-19T03:27:15Z) - A Provably Effective Method for Pruning Experts in Fine-tuned Sparse Mixture-of-Experts [49.394145046409044]
本論文は,MoEモデルにおけるエキスパートの刈り取りに有効な手法として,初めて提案するものである。
理論的には、事前訓練されたモデルからルータl2ノルムを小さく変更することで、専門家のプルーニングを優先順位付けすることで、テスト精度の維持が保証される。
我々の理論解析は、単純化されたMoEアーキテクチャ上でのバイナリ分類タスクに重点を置いているが、我々の専門的なプルーニング手法は、大きな視覚的MoEモデルに基づいて検証されている。
論文 参考訳(メタデータ) (2024-05-26T17:52:58Z) - Unchosen Experts Can Contribute Too: Unleashing MoE Models' Power by Self-Contrast [58.98411447739218]
Mixture-of-Experts (MoE) は、計算効率を保ちながら、モデルサイズをスケールするための顕著なアーキテクチャとして登場した。
本研究では,無声専門家を推論中に自己コントラスト的に活用する学習自由戦略である自己コントラスト混合(SCMoE)を提案する。
我々の手法は概念的には単純で計算量も軽量であり、グリージー復号法に比べて最小限の遅延を発生させる。
論文 参考訳(メタデータ) (2024-05-23T12:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。