論文の概要: TriMoE: Augmenting GPU with AMX-Enabled CPU and DIMM-NDP for High-Throughput MoE Inference via Offloading
- arxiv url: http://arxiv.org/abs/2603.01058v1
- Date: Sun, 01 Mar 2026 11:27:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.485016
- Title: TriMoE: Augmenting GPU with AMX-Enabled CPU and DIMM-NDP for High-Throughput MoE Inference via Offloading
- Title(参考訳): TriMoE: オフロードによる高スループットMoE推論のためのAMX-Enabled CPUとDIMM-NDPによるGPUの拡張
- Authors: Yudong Pan, Yintao He, Tianhua Han, Lian Liu, Shixin Zhao, Zhirong Chen, Mengdi Wang, Cangyuan Li, Yinhe Han, Ying Wang,
- Abstract要約: TriMoEは新しいGPU-CPU-NDPアーキテクチャで、AMX対応のCPUを利用して、ホット、ウォーム、コールドの専門家を最適な計算ユニットにマップする。
実験により、TriMoEは最先端のソリューションよりも最大2.83倍のスピードアップを達成することが示された。
- 参考スコア(独自算出の注目度): 38.243293392367086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To deploy large Mixture-of-Experts (MoE) models cost-effectively, offloading-based single-GPU heterogeneous inference is crucial. While GPU-CPU architectures that offload cold experts are constrained by host memory bandwidth, emerging GPU-NDP architectures utilize DIMM-NDP to offload non-hot experts. However, non-hot experts are not a homogeneous memory-bound group: a significant subset of warm experts exists is severely penalized by high GPU I/O latency yet can saturate NDP compute throughput, exposing a critical compute gap. We present TriMoE, a novel GPU-CPU-NDP architecture that fills this gap by synergistically leveraging AMX-enabled CPU to precisely map hot, warm, and cold experts onto their optimal compute units. We further introduce a bottleneck-aware expert scheduling policy and a prediction-driven dynamic relayout/rebalancing scheme. Experiments demonstrate that TriMoE achieves up to 2.83x speedup over state-of-the-art solutions.
- Abstract(参考訳): 大規模なMixture-of-Experts(MoE)モデルをコスト効率よくデプロイするには、オフロードベースのシングルGPUヘテロジニアス推論が不可欠である。
コールドエキスパートをオフロードするGPU-CPUアーキテクチャはホストメモリ帯域幅によって制約を受けるが、新興のGPU-NDPアーキテクチャはDIMM-NDPを使用して非ホット専門家をオフロードする。
しかし、ホットでない専門家は、均一なメモリバウンドグループではない。ウォームエキスパートのかなりのサブセットは、高いGPU I/Oレイテンシによって厳しく罰せられるが、NDP計算のスループットを飽和させ、重要な計算ギャップを露呈することができる。
このギャップを埋める新しいGPU-CPU-NDPアーキテクチャであるTriMoEは、AMX対応CPUを相乗的に利用して、ホット、ウォーム、コールドエキスパートを最適な計算ユニットに正確にマッピングすることで、このギャップを埋める。
さらに,ボトルネック対応のエキスパートスケジューリングポリシと,予測駆動型動的リレーアウト/リバランシング方式を導入する。
実験により、TriMoEは最先端のソリューションよりも最大2.83倍のスピードアップを達成することが示された。
関連論文リスト
- ZipMoE: Efficient On-Device MoE Serving via Lossless Compression and Cache-Affinity Scheduling [56.88966608455977]
ZipMoEはエッジデバイスのハードウェア特性とMoEパラメータ固有の統計的冗長性との相乗効果を利用する。
ZipMoEは72.77%の推論遅延低減と6.76タイムのスループットを実現している。
論文 参考訳(メタデータ) (2026-01-29T02:51:59Z) - A Scheduling Framework for Efficient MoE Inference on Edge GPU-NDP Systems [28.86723467729703]
Mixture-of-Experts(MoE)モデルは、モデルキャパシティをアクティブな計算から切り離すことでエッジデプロイメントを容易にするが、その大きなメモリフットプリントは、専門家を専用の処理ユニットにオフロードするほぼデータ処理機能を備えたGPUシステムの必要性を促進する。
エッジベースのGPU-NDPシステムにMoEモデルをデプロイするには、3つの重要な課題がある。1) 非均一な専門家選択と専門家並列性によるNDPユニット間の負荷不均衡、2)NDPユニット内でのエキスパート計算におけるGPU利用不足、3)予測不能な専門家アクティベーションパターンによって必要となる広範なデータ事前プロファイリング。
論文 参考訳(メタデータ) (2026-01-07T15:02:57Z) - WarmServe: Enabling One-for-Many GPU Prewarming for Multi-LLM Serving [17.92164698813269]
既存のマルチLLMサービスシステムは、より悪い推論性能でGPUの利用を最適化する。
我々は、将来のワークロードに関する知識を積んだモデルを読み込む1対多のGPUプリワームを可能にするために、普遍的なGPUワーカーを提案する。
WarmServeは、最先端のオートスケーリングベースのシステムと比較して、TTFTを最大50.8$timesで改善する。
論文 参考訳(メタデータ) (2025-12-10T09:47:40Z) - Context-Aware Mixture-of-Experts Inference on CXL-Enabled GPU-NDP Systems [13.222990686403962]
Mixture-of-Experts (MoE)モデルは、条件付き計算によって大きな言語モデルをスケールするが、専門家の重みがGPUメモリの容量を超えると、推論はメモリバウンドになる。
我々は,CXL-attached near-data Processing (CXL-NDP) をオフロード層として採用し,コールドエキスパートを現場で実行することでこの問題に対処する。
本システムでは,プリフィルステージアクティベーション統計を用いて,デコードステージのエキスパート配置をガイドする。
論文 参考訳(メタデータ) (2025-12-04T05:30:53Z) - Accelerating Mixture-of-Expert Inference with Adaptive Expert Split Mechanism [29.862588578556366]
MoEpicは、新しい専門家分割機構を備えた効率的なMoE推論システムである。
人気のあるMoE LLMの実験は、MoEpicがGPUコストの約半分を節約できることを示した。
論文 参考訳(メタデータ) (2025-09-10T07:28:24Z) - Mixture of Lookup Experts [63.787712153454464]
Mixture-of-Experts (MoE)は、推論中に専門家のサブセットだけを起動する。
MoLEは通信とVRAMの両方で効率的な新しいMoEアーキテクチャである。
論文 参考訳(メタデータ) (2025-03-20T02:31:57Z) - DAOP: Data-Aware Offloading and Predictive Pre-Calculation for Efficient MoE Inference [14.676716521856813]
Mixture-of-Experts (MoE)モデルは、メモリ制限されたデバイスにおいて、重大なデプロイメント上の課題に直面している。
並列GPU-CPU実行を最適化するデバイス上でのMoE推論エンジンである presentP を提案する。
Pは従来のエキスパートキャッシングとプリフェッチの手法を最大8.20倍、オフロード技術は1.35倍、精度は維持する。
論文 参考訳(メタデータ) (2024-12-16T07:59:21Z) - MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。
MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。
MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文 参考訳(メタデータ) (2024-11-18T01:06:12Z) - HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。