論文の概要: Alloc-MoE: Budget-Aware Expert Activation Allocation for Efficient Mixture-of-Experts Inference
- arxiv url: http://arxiv.org/abs/2604.08133v1
- Date: Thu, 09 Apr 2026 11:50:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.897595
- Title: Alloc-MoE: Budget-Aware Expert Activation Allocation for Efficient Mixture-of-Experts Inference
- Title(参考訳): Alloc-MoE: 効率的なミックス・オブ・エクスプロイト推論のための予算対応エキスパートアクティベーションアロケーション
- Authors: Baihui Liu, Kaiyuan Tian, Wei Wang, Zhaoning Zhang, Linbo Qiao, Dongsheng Li,
- Abstract要約: 本稿では,専門家のアクティベーション数に対する制約として,エフェクティベーション予算の概念を導入する。
性能劣化を最小限に抑えるため,各層およびトークンレベルで予算配分を協調的に最適化する統合フレームワークであるAlloc-MoEを提案する。
- 参考スコア(独自算出の注目度): 25.277100980819252
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts (MoE) has become a dominant architecture for scaling large language models due to their sparse activation mechanism. However, the substantial number of expert activations creates a critical latency bottleneck during inference, especially in resource-constrained deployment scenarios. Existing approaches that reduce expert activations potentially lead to severe model performance degradation. In this work, we introduce the concept of \emph{activation budget} as a constraint on the number of expert activations and propose Alloc-MoE, a unified framework that optimizes budget allocation coordinately at both the layer and token levels to minimize performance degradation. At the layer level, we introduce Alloc-L, which leverages sensitivity profiling and dynamic programming to determine the optimal allocation of expert activations across layers. At the token level, we propose Alloc-T, which dynamically redistributes activations based on routing scores, optimizing budget allocation without increasing latency. Extensive experiments across multiple MoE models demonstrate that Alloc-MoE maintains model performance under a constrained activation budget. Especially, Alloc-MoE achieves $1.15\times$ prefill and $1.34\times$ decode speedups on DeepSeek-V2-Lite at half of the original budget.
- Abstract(参考訳): Mixture-of-Experts (MoE) は、そのスパースアクティベーション機構により、大規模言語モデルをスケールするための支配的なアーキテクチャとなっている。
しかしながら、専門家のアクティベーションのかなりの数が、特にリソース制約のあるデプロイメントシナリオにおいて、推論中に重大な遅延ボトルネックを発生させる。
専門家のアクティベーションを減らす既存のアプローチは、モデルのパフォーマンスを著しく低下させる可能性がある。
本稿では,専門家のアクティベーション数に対する制約として「emph{activation budget」の概念を導入し,性能劣化を最小限に抑えるため,各層およびトークンレベルで予算配分を協調的に最適化する統合フレームワークAlloc-MoEを提案する。
層レベルでは、感度プロファイリングと動的プログラミングを活用して、層間の専門家アクティベーションの最適な割り当てを決定するAlloc-Lを導入する。
トークンレベルでは、ルーティングスコアに基づいて動的にアクティベーションを再分配し、遅延を増大させることなく予算配分を最適化するAlloc-Tを提案する。
複数のMoEモデルにわたる大規模な実験により、Alloc-MoEは、制限されたアクティベーション予算の下でモデル性能を維持することを示した。
特に、Alloc-MoEは1.15\times$プリフィルと1.34\times$DeepSeek-V2-Liteのデコードスピードアップを当初の予算の半分で達成している。
関連論文リスト
- DynaMoE: Dynamic Token-Level Expert Activation with Layer-Wise Adaptive Capacity for Mixture-of-Experts Neural Networks [0.0]
Mixture-of-Experts (MoE)アーキテクチャは、計算効率を維持しながらニューラルネットワークをスケールするための強力なパラダイムとして登場した。
本稿では,動的トークンレベルのエキスパートアクティベーションと層幅適応キャパシティアロケーションによって制約を緩和する新しいMoEフレームワークであるDynaMoEを紹介する。
論文 参考訳(メタデータ) (2026-03-02T10:25:56Z) - ExpertWeaver: Unlocking the Inherent MoE in Dense LLMs with GLU Activation Patterns [68.61814799047956]
Mixture-of-Experts (MoE)は、スパース専門家のアクティベーションを通じて計算効率を保ちながら、モデル容量を効果的にスケールする。
ExpertWeaverは、ニューロンをアクティベーションパターンに従ってパーティショニングする、トレーニング不要のフレームワークで、共有専門家と特殊なルーティング専門家をレイヤ適応構成で構成する。
論文 参考訳(メタデータ) (2026-02-17T11:50:58Z) - MoDES: Accelerating Mixture-of-Experts Multimodal Large Language Models via Dynamic Expert Skipping [52.02659589971978]
我々は,MoE MLLM推論を効果的かつ正確なものにするために,専門家を適応的にスキップする最初のトレーニングフリーフレームワークであるMoDESを提案する。
MoDESは推論速度を大幅に向上させ、プリフィルタイムを2.16$times$、デコードタイムを1.26$times$に改善する。
論文 参考訳(メタデータ) (2025-11-19T18:48:27Z) - MC#: Mixture Compressor for Mixture-of-Experts Large Models [86.64315380917827]
Mixture-of-Experts (MoE)は、大きな言語モデル(LLM)と視覚言語モデル(VLM)をスパースアクティベーションによって拡張することで効果的にスケールする。
静的量子化と動的エキスパートプルーニングを組み合わせたフレームワークであるMC#(Mixture-Compressor-sharp)を提案する。
論文 参考訳(メタデータ) (2025-10-13T03:12:46Z) - Hierarchical LoRA MoE for Efficient CTR Model Scaling [56.608809143548946]
HiLoMoEは階層的なLoRA MoEフレームワークで、パラメータ効率のよい全体的なスケーリングを可能にする。
従来のスタックとは異なり、HiLoMoEルートは出力ではなく前のレイヤスコアに基づいており、すべてのレイヤが並列に実行される。
論文 参考訳(メタデータ) (2025-10-12T03:54:11Z) - DuoGPT: Training-free Dual Sparsity through Activation-aware Pruning in LLMs [19.710403142085102]
DuoGPTは、非構造化ウェイトプルーニングとアクティベーション間隔を組み合わせることで、デュアルスパース(spMspV)ワークロードを構築するフレームワークである。
我々は,DuoGPTがベースライン密度モデルと比較して1.39$times$のアイソスピードアップで9.17%の精度で,最先端の構造化プルーニング法より優れていることを示す。
論文 参考訳(メタデータ) (2025-06-25T07:35:12Z) - D$^{2}$MoE: Dual Routing and Dynamic Scheduling for Efficient On-Device MoE-based LLM Serving [14.607254882119507]
専門家(MoE)モデルの組み合わせは、大きな言語モデル(LLM)のスパース変種である。
メリットはあるものの、リソース制約のあるエッジデバイスにデプロイするにはMoEは高価すぎる。
D$2$MoEは,各専門家に最適なビット幅を動的に割り当てることで,多様なタスク要求に適合するアルゴリズム・システム協調設計フレームワークである。
論文 参考訳(メタデータ) (2025-04-17T05:37:35Z) - DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [86.76714527437383]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - AdapMoE: Adaptive Sensitivity-based Expert Gating and Management for Efficient MoE Inference [13.263938935671646]
AdapMoEは、効率的なMoE推論のためのアルゴリズムとシステムの共同設計フレームワークである。
AdapMoEは、オンデマンドのロードオーバーヘッドを減らすために、アダプティブなエキスパートゲーティングと管理機能を備えている。
AdapMoEは既存の技術より一貫して優れており、アクティベートされた専門家の平均数が25%減少し、精度を低下させることなく1.35倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2024-08-19T03:27:15Z) - Exploiting Activation Sparsity with Dense to Dynamic-k Mixture-of-Experts Conversion [4.716845031095804]
トランスフォーマーモデルは、高い計算要求のため、実用的な制限に直面する可能性がある。
このようなモデルは、ネットワークの一部を等価なMixture-of-Experts (MoE)層に変換することで、推論コストを削減するために利用することができる。
本研究では,基本モデルの活性化間隔を適切に正規化することにより,変換効率を大幅に向上できることを実証する。
論文 参考訳(メタデータ) (2023-10-06T16:34:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。