論文の概要: Context-Aware Mixture-of-Experts Inference on CXL-Enabled GPU-NDP Systems
- arxiv url: http://arxiv.org/abs/2512.04476v1
- Date: Thu, 04 Dec 2025 05:30:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.008407
- Title: Context-Aware Mixture-of-Experts Inference on CXL-Enabled GPU-NDP Systems
- Title(参考訳): CXL-Enabled GPU-NDPシステムにおけるコンテクスト-Aware Mixture-of-Experts推論
- Authors: Zehao Fan, Zhenyu Liu, Yunzhen Liu, Yayue Hou, Hadjer Benmeziane, Kaoutar El Maghraoui, Liu Liu,
- Abstract要約: Mixture-of-Experts (MoE)モデルは、条件付き計算によって大きな言語モデルをスケールするが、専門家の重みがGPUメモリの容量を超えると、推論はメモリバウンドになる。
我々は,CXL-attached near-data Processing (CXL-NDP) をオフロード層として採用し,コールドエキスパートを現場で実行することでこの問題に対処する。
本システムでは,プリフィルステージアクティベーション統計を用いて,デコードステージのエキスパート配置をガイドする。
- 参考スコア(独自算出の注目度): 13.222990686403962
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts (MoE) models scale large language models through conditional computation, but inference becomes memory-bound once expert weights exceed the capacity of GPU memory. In this case, weights must be offloaded to external memory, and fetching them incurs costly and repeated transfers. We address this by adopting CXL-attached near-data processing (CXL-NDP) as the offloading tier to execute cold experts in place, converting expensive parameter movement into cheaper activation movement. Unlike prior GPU-NDP systems that are largely context-agnostic and reactive, we develop a context-aware MoE system that uses prefill-stage activation statistics to guide decoding-stage expert placement, dynamically pins hot experts in GPU-side HBM, and maps the remainder to CXL-NDP. To meet NDP's limited compute throughput, we introduce context-aware mixed-precision quantization that allocates per-expert bitwidths (1-4 bit) based on prefill stage. The resulting MoE inference system overlaps GPU and NDP execution while minimizing cross-device movement. The evaluation on the GPU-NDP system shows that our approach achieves up to an 8.7-fold decoding throughput improvement over the state-of-the-art method, while incurring only a 0.13% average accuracy drop.
- Abstract(参考訳): Mixture-of-Experts (MoE)モデルは、条件付き計算によって大きな言語モデルをスケールするが、専門家の重みがGPUメモリの容量を超えると、推論はメモリバウンドになる。
この場合、重みは外部メモリにオフロードされ、それらを取得することはコストがかかり、繰り返し転送される。
我々は、CXL-attached near-data Processing (CXL-NDP) をオフロード層として採用し、高価なパラメータの動きをより安価なアクティベーション運動に変換することで、この問題に対処する。
従来のGPU-NDPシステムとは違って,プリフィルステージアクティベーション統計を用いて,デコードステージのエキスパート配置をガイドし,GPU側HBMのホットエキスパートを動的にピン留めし,残りをCXL-NDPにマップする,コンテキスト対応のMoEシステムを開発した。
NDPの計算スループットの制限を満たすために、プレフィルステージに基づいて、熟練ビット幅(1-4ビット)を割り当てるコンテキスト対応混合精度量子化を導入する。
結果のMoE推論システムは、デバイス間移動を最小限にしながらGPUとNDPの実行を重複させる。
GPU-NDPシステムによる評価の結果,提案手法は最先端手法よりも8.7倍のデコードスループット向上を実現し,平均精度は0.13%に留まった。
関連論文リスト
- Characterizing the Efficiency of Distributed Training: A Power, Performance, and Thermal Perspective [6.51239603014107]
大規模言語モデル(LLM)は、単一ノード分析の限界を超えて、トレーニングワークロードを推し進めている。
様々な実世界のワークロードとハードウェアプラットフォームにわたるLLMトレーニングの包括的特徴について述べる。
論文 参考訳(メタデータ) (2025-09-12T16:05:07Z) - Nexus:Proactive Intra-GPU Disaggregation of Prefill and Decode in LLM Serving [4.309392302169281]
エンジンレベルのプリフィル・デコード(PD)デアグリゲーションは干渉を避けるが、高いハードウェアと調整オーバーヘッドを引き起こす。
PDは、最大2.2倍のスループット、20倍のTTFT、2.5倍のTBTを達成する。
論文 参考訳(メタデータ) (2025-07-09T07:27:18Z) - Intra-DP: A High Performance Collaborative Inference System for Mobile Edge Computing [67.98609858326951]
Intra-DPはモバイルデバイス上でのディープニューラルネットワーク(DNN)に最適化された高性能な協調推論システムである。
推論毎のレイテンシを最大50%削減し、最先端のベースラインと比較してエネルギー消費量を最大75%削減する。
評価の結果,DP内の遅延は,最先端のベースラインと比較して最大50%,エネルギー消費は最大75%減少することがわかった。
論文 参考訳(メタデータ) (2025-07-08T09:50:57Z) - MoE-Lens: Towards the Hardware Limit of High-Throughput MoE LLM Serving Under Resource Constraints [7.287566040274871]
MoE-Lensは、リソース制約のある環境に対する総合的なパフォーマンスモデリングによって設計された推論システムである。
システム実行メカニズムをキャプチャして、重要なハードウェアボトルネックを特定し、達成可能なスループットを正確に予測します。
多様なMoEモデルとデータセットに基づいて評価され、MoE-Lensは最先端のソリューションを平均で4.6倍(最大25.5倍)上回る。
論文 参考訳(メタデータ) (2025-04-12T21:26:56Z) - QuartDepth: Post-Training Quantization for Real-Time Depth Estimation on the Edge [55.75103034526652]
ASIC のハードウェアアクセラレーションによる MDE モデルの定量化を後学習量子化に応用した QuartDepth を提案する。
提案手法では,重みとアクティベーションの両方を4ビット精度で定量化し,モデルサイズと計算コストを削減する。
我々は、カーネル融合とカスタマイズされた命令プログラム性をサポートすることにより、フレキシブルでプログラム可能なハードウェアアクセラレータを設計する。
論文 参考訳(メタデータ) (2025-03-20T21:03:10Z) - Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。
PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。
我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文 参考訳(メタデータ) (2024-10-17T11:46:33Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。