論文の概要: CoX-MoE: Coalesced Expert Execution for High-Throughput MoE Inference with AMX-Enabled CPU-GPU Co-Execution
- arxiv url: http://arxiv.org/abs/2605.17889v2
- Date: Tue, 19 May 2026 04:52:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.562696
- Title: CoX-MoE: Coalesced Expert Execution for High-Throughput MoE Inference with AMX-Enabled CPU-GPU Co-Execution
- Title(参考訳): CoX-MoE: AMX-Enabled CPU-GPU共実行を用いた高速MoE推論のための専門家共同実行
- Authors: Muyoung Son, Yi Chen, Seungjae Yoo, Soongyu Choi, Joo-Young Kim,
- Abstract要約: CoX-MoEは、AMX(Advanced Matrix Extensions)対応のCPU-GPU協調システムである。
MoE推論を総合的に最適化するために、合体したエキスパート実行と、高いスループットのために戦略的ワークロードオーケストレーションを組み合わせる。
最先端のフレームワークと比較して、CoX-MoEは7.1倍、2.4倍のスループットを実現している。
- 参考スコア(独自算出の注目度): 6.04230666444406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Mixture-of-Experts (MoE) architecture improves computational efficiency via sparse expert activation, but throughput-oriented inference faces substantial GPU memory pressure due to a significant parameter size and intermediate data. Prior works attempt to mitigate this using expert offloading with micro-batching or by offloading computation to the CPU. However, the fragmented workload resulting from micro-batching degrades operational intensity, causing expert execution to become memory-bound. Meanwhile, CPU offloading is constrained by slow PCIe transfers and its limited applicability to attention computation in the decode stage. Consequently, these inefficiencies prevent effective system utilization, severely restricting the end-to-end throughput of MoE inference. To address these challenges, this paper proposes CoX-MoE, an Advanced Matrix Extensions (AMX)-enabled CPU-GPU collaborative system that comprehensively optimizes MoE inference by combining coalesced expert execution with strategic workload orchestration for higher throughput. CoX-MoE introduces (i) a coalescing-aware orchestration policy to jointly optimize resource allocation by adopting ordinary batch, instead of micro-batch, for expert computation and selective attention offloading, and (ii) a static expert-aware stratification scheme that pre-assigns frequently activated experts to the GPU, mitigating PCIe transfer overhead and balancing workload for the CPU and GPU during inference. Compared to state-of-the-art frameworks, CoX-MoE delivers significant gains, achieving up to 7.1x and 2.4x higher throughput than FlexGen and MoE-Lightning, respectively.
- Abstract(参考訳): Mixture-of-Experts (MoE)アーキテクチャはスパース専門家のアクティベーションを通じて計算効率を向上させるが、スループット指向推論は重要なパラメータサイズと中間データのためにGPUメモリのかなりの圧力に直面する。
以前の作業では、マイクロバッチを使った専門家のオフロードや、計算をCPUにオフロードすることで、この問題を緩和しようとしていた。
しかし、マイクロバッチによる断片化されたワークロードは、運用の強度を低下させ、専門家の実行がメモリバウンドになる。
一方、CPUオフロードは、遅いPCIe転送と、デコード段階でのアテンション計算の適用性に制限される。
その結果、これらの非効率性は効果的なシステム利用を阻害し、MoE推論のエンドツーエンドスループットを著しく制限する。
これらの課題に対処するため,我々は,高度なマトリックス拡張(AMX)対応のCPU-GPU協調システムであるCoX-MoEを提案する。
CoX-MoEの紹介
一 マイクロバッチではなく通常のバッチを用いて資源配分を共同で最適化し、専門家の計算及び選択的注意オフロードを行う合理化対応型オーケストレーション政策
(ii) PCIe転送オーバーヘッドを軽減し、推論中にCPUとGPUのワークロードのバランスをとるため、GPUに頻繁にアクティベートされた専門家を事前割り当てする静的なエキスパート対応階層化スキーム。
最先端のフレームワークと比較して、CoX-MoEは、それぞれFlexGenとMoE-Lightningよりも最大7.1倍、2.4倍高いスループットを実現している。
関連論文リスト
- ZipMoE: Efficient On-Device MoE Serving via Lossless Compression and Cache-Affinity Scheduling [56.88966608455977]
ZipMoEはエッジデバイスのハードウェア特性とMoEパラメータ固有の統計的冗長性との相乗効果を利用する。
ZipMoEは72.77%の推論遅延低減と6.76タイムのスループットを実現している。
論文 参考訳(メタデータ) (2026-01-29T02:51:59Z) - Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - xLLM Technical Report [57.13120905321185]
我々は,知的かつ効率的なLarge Language Model (LLM)推論フレームワークであるxLLMを紹介する。
xLLMは、新しい分離されたサービスエンジンアーキテクチャを構築する。
xLLM-Engineは、システムとアルゴリズムの設計を最適化し、コンピュータリソースを完全に飽和させる。
論文 参考訳(メタデータ) (2025-10-16T13:53:47Z) - MoBiLE: Efficient Mixture-of-Experts Inference on Consumer GPU with Mixture of Big Little Experts [17.518573710849513]
MoBiLEは、プラグイン・アンド・プレイのオフロードベースのMoE推論フレームワークで、大手専門家のテキストミキサーを備えている。
MoBiLEは、コンシューマGPUシステムのベースラインと比較して1.60倍から1.72倍のスピードアップを実現し、精度の劣化は無視できる。
論文 参考訳(メタデータ) (2025-10-14T10:22:44Z) - MoE-Lens: Towards the Hardware Limit of High-Throughput MoE LLM Serving Under Resource Constraints [7.287566040274871]
MoE-Lensは、リソース制約のある環境に対する総合的なパフォーマンスモデリングによって設計された推論システムである。
システム実行メカニズムをキャプチャして、重要なハードウェアボトルネックを特定し、達成可能なスループットを正確に予測します。
多様なMoEモデルとデータセットに基づいて評価され、MoE-Lensは最先端のソリューションを平均で4.6倍(最大25.5倍)上回る。
論文 参考訳(メタデータ) (2025-04-12T21:26:56Z) - HybriMoE: Hybrid CPU-GPU Scheduling and Cache Management for Efficient MoE Inference [5.015541720729724]
HybriMoEは、CPU-GPUスケジューリングとキャッシュ管理システムによってリソース利用を改善するハイブリッドCPU-GPU推論フレームワークである。
我々は、kTransformersフレームワーク上にHybriMoEを実装し、3つの広く使われているMoEベースのLLM上で評価する。
論文 参考訳(メタデータ) (2025-04-08T10:47:37Z) - DAOP: Data-Aware Offloading and Predictive Pre-Calculation for Efficient MoE Inference [14.676716521856813]
Mixture-of-Experts (MoE)モデルは、メモリ制限されたデバイスにおいて、重大なデプロイメント上の課題に直面している。
並列GPU-CPU実行を最適化するデバイス上でのMoE推論エンジンである presentP を提案する。
Pは従来のエキスパートキャッシングとプリフェッチの手法を最大8.20倍、オフロード技術は1.35倍、精度は維持する。
論文 参考訳(メタデータ) (2024-12-16T07:59:21Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。