論文の概要: Accelerating Mixture-of-Expert Inference with Adaptive Expert Split Mechanism
- arxiv url: http://arxiv.org/abs/2509.08342v1
- Date: Wed, 10 Sep 2025 07:28:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.339831
- Title: Accelerating Mixture-of-Expert Inference with Adaptive Expert Split Mechanism
- Title(参考訳): アダプティブ・エキスパート・スプリット・メカニズムによるMixture-of-Expert推論の高速化
- Authors: Jiaming Yan, Jianchun Liu, Hongli Xu, Liusheng Huang,
- Abstract要約: MoEpicは、新しい専門家分割機構を備えた効率的なMoE推論システムである。
人気のあるMoE LLMの実験は、MoEpicがGPUコストの約半分を節約できることを示した。
- 参考スコア(独自算出の注目度): 29.862588578556366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts (MoE) has emerged as a promising architecture for modern large language models (LLMs). However, massive parameters impose heavy GPU memory (i.e., VRAM) demands, hindering the widespread adoption of MoE LLMs. Offloading the expert parameters to CPU RAM offers an effective way to alleviate the VRAM requirements for MoE inference. Existing approaches typically cache a small subset of experts in VRAM and dynamically prefetch experts from RAM during inference, leading to significant degradation in inference speed due to the poor cache hit rate and substantial expert loading latency. In this work, we propose MoEpic, an efficient MoE inference system with a novel expert split mechanism. Specifically, each expert is vertically divided into two segments: top and bottom. MoEpic caches the top segment of hot experts, so that more experts will be stored under the limited VRAM budget, thereby improving the cache hit rate. During each layer's inference, MoEpic predicts and prefetches the activated experts for the next layer. Since the top segments of cached experts are exempt from fetching, the loading time is reduced, which allows efficient transfer-computation overlap. Nevertheless, the performance of MoEpic critically depends on the cache configuration (i.e., each layer's VRAM budget and expert split ratio). To this end, we propose a divide-and-conquer algorithm based on fixed-point iteration for adaptive cache configuration. Extensive experiments on popular MoE LLMs demonstrate that MoEpic can save about half of the GPU cost, while lowering the inference latency by about 37.51%-65.73% compared to the baselines.
- Abstract(参考訳): Mixture-of-Experts (MoE)は、現代の大規模言語モデル(LLM)のための有望なアーキテクチャとして登場した。
しかし、大量のパラメータは重いGPUメモリ(すなわちVRAM)を必要とするため、MoE LLMの普及を妨げている。
エキスパートパラメータをCPU RAMにオフロードすると、MoE推論のVRAM要求が軽減される。
既存のアプローチは通常、VRAMの専門家の小さなサブセットを推論中にRAMから動的にプリフェッチする専門家をキャッシュする。
本研究では,新しい専門家分割機構を備えた効率的なMoE推論システムであるMoEpicを提案する。
具体的には、各専門家は上下に2つのセグメントに分けられる。
MoEpicはホットエキスパートのトップセグメントをキャッシュするので、より多くのエキスパートを限られたVRAM予算で保存し、キャッシュヒット率を改善することができる。
各レイヤの推論において、MoEpicは次のレイヤのアクティベートした専門家を予測し、プレフィックスする。
キャッシュされた専門家のトップセグメントはフェッチを免除されるため、ロード時間が短縮され、効率的な転送/計算オーバーラップが可能になる。
それでも、MoEpicのパフォーマンスは、キャッシュ構成(すなわち、各レイヤのVRAM予算とエキスパート分割比率)に大きく依存する。
そこで本研究では,適応型キャッシュ構成のための固定点反復に基づく分割・列化アルゴリズムを提案する。
人気のあるMoE LLMの大規模な実験により、MoEpicはGPUコストの約半分を節約できる一方で、ベースラインと比較して推論遅延を約37.51%-65.73%削減できることが示された。
関連論文リスト
- Mixture of Lookup Experts [63.787712153454464]
Mixture-of-Experts (MoE)は、推論中に専門家のサブセットだけを起動する。
MoLEは通信とVRAMの両方で効率的な新しいMoEアーキテクチャである。
論文 参考訳(メタデータ) (2025-03-20T02:31:57Z) - fMoE: Fine-Grained Expert Offloading for Large Mixture-of-Experts Serving [9.956997242640728]
fMoEは、MoEサービスのためのきめ細かい専門家のオフロードシステムである。
我々はfMoEが推論遅延を47%削減し、最先端ソリューションよりも専門家のヒット率を36%向上することを示した。
論文 参考訳(メタデータ) (2025-02-07T22:51:17Z) - DAOP: Data-Aware Offloading and Predictive Pre-Calculation for Efficient MoE Inference [14.676716521856813]
Mixture-of-Experts (MoE)モデルは、メモリ制限されたデバイスにおいて、重大なデプロイメント上の課題に直面している。
並列GPU-CPU実行を最適化するデバイス上でのMoE推論エンジンである presentP を提案する。
Pは従来のエキスパートキャッシングとプリフェッチの手法を最大8.20倍、オフロード技術は1.35倍、精度は維持する。
論文 参考訳(メタデータ) (2024-12-16T07:59:21Z) - MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。
MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。
MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文 参考訳(メタデータ) (2024-11-18T01:06:12Z) - HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。