論文の概要: UCCL-EP: Portable Expert-Parallel Communication
- arxiv url: http://arxiv.org/abs/2512.19849v1
- Date: Mon, 22 Dec 2025 20:05:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.65319
- Title: UCCL-EP: Portable Expert-Parallel Communication
- Title(参考訳): UCCL-EP: Portable Expert-Parallel Communication
- Authors: Ziming Mao, Yihan Zhang, Chihan Cui, Kaichao You, Zhongjie Chen, Zhiying Xu, Scott Shenker, Costin Raiciu, Yang Zhou, Ion Stoica,
- Abstract要約: DeepEPのような最先端のEP通信システムは強力な性能を示すが、異種GPUとNICプラットフォーム間のポータビリティは低い。
我々は、ヘテロジニアスGPUとNICハードウェア間でDeepEPレベルのパフォーマンスを実現するポータブルEP通信システムUCCL-EPを提案する。
- 参考スコア(独自算出の注目度): 34.712100988183174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts (MoE) workloads rely on expert parallelism (EP) to achieve high GPU efficiency. State-of-the-art EP communication systems such as DeepEP demonstrate strong performance but exhibit poor portability across heterogeneous GPU and NIC platforms. The poor portability is rooted in architecture: GPU-initiated token-level RDMA communication requires tight vertical integration between GPUs and NICs, e.g., GPU writes to NIC driver/MMIO interfaces. We present UCCL-EP, a portable EP communication system that delivers DeepEP-level performance across heterogeneous GPU and NIC hardware. UCCL-EP replaces GPU-initiated RDMA with a high-throughput GPU-CPU control channel: compact token-routing commands are transferred to multithreaded CPU proxies, which then issue GPUDirect RDMA operations on behalf of GPUs. UCCL-EP further emulates various ordering semantics required by specialized EP communication modes using RDMA immediate data, enabling correctness on NICs that lack such ordering, e.g., AWS EFA. We implement UCCL-EP on NVIDIA and AMD GPUs with EFA and Broadcom NICs. On EFA, it outperforms the best existing EP solution by up to $2.1\times$ for dispatch and combine throughput. On NVIDIA-only platform, UCCL-EP achieves comparable performance to the original DeepEP. UCCL-EP also improves token throughput on SGLang by up to 40% on the NVIDIA+EFA platform, and improves DeepSeek-V3 training throughput over the AMD Primus/Megatron-LM framework by up to 45% on a 16-node AMD+Broadcom platform.
- Abstract(参考訳): Mixture-of-Experts (MoE)ワークロードは、GPU効率を達成するために、エキスパート並列性(EP)に依存している。
DeepEPのような最先端のEP通信システムは強力な性能を示すが、異種GPUとNICプラットフォーム間のポータビリティは低い。
GPUで開始されたトークンレベルのRDMA通信は、GPUとNICの緊密な垂直統合を必要とします。
我々は、ヘテロジニアスGPUとNICハードウェア間でDeepEPレベルのパフォーマンスを実現するポータブルEP通信システムUCCL-EPを提案する。
UCCL-EPはGPU開始のRDMAを高スループットのGPU-CPU制御チャネルに置き換える: コンパクトトークンルーティングコマンドはマルチスレッドのCPUプロキシに転送され、GPUに代わってGPUDirect RDMA操作が発行される。
UCCL-EPはさらに、RDMA即時データを使用して、特殊なEP通信モードで必要とされるさまざまな順序付けセマンティクスをエミュレートし、そのような順序付けを欠いたNIC、例えばAWS EFAの正確性を実現する。
EFAとBroadcom NICでNVIDIAとAMDのGPU上でUCCL-EPを実装した。
EFAでは、ディスパッチとスループットの組み合わせで2.1\times$を最大で2.1\timesで上回っている。
NVIDIAのみのプラットフォームでは、UCCL-EPはオリジナルのDeepEPと同等のパフォーマンスを達成している。
UCCL-EPはまた、NVIDIA+EFAプラットフォームでSGLangのトークンスループットを最大40%改善し、AMD Primus/Megatron-LMフレームワーク上でのDeepSeek-V3トレーニングスループットを最大45%改善する。
関連論文リスト
- GPU-Initiated Networking for NCCL [0.7990599798388804]
従来のGPU通信は、CPUがすべての通信操作をオーケストレーションするホスト開始モデルに従っている。
本稿では,GINアーキテクチャ,設計,セマンティクスについて述べる。
論文 参考訳(メタデータ) (2025-11-19T03:36:03Z) - Multi-GPU Quantum Circuit Simulation and the Impact of Network Performance [0.7340017786387767]
我々は、HPCシステム上でのベンチマークを容易にするため、QED-C Application-Oriented BenchmarksにMPIを導入する。
我々は最近のNVIDIA Grace Blackwell NVL72アーキテクチャを含む様々な相互接続パスを用いてベンチマークを行った。
GPUアーキテクチャの改善は4.5倍以上のスピードアップにつながったが、相互接続性能の進歩は16倍以上のパフォーマンス改善によるソリューションのソリューション化に大きな影響を与えている。
論文 参考訳(メタデータ) (2025-11-18T17:04:28Z) - GPU-centric Communication Schemes for HPC and ML Applications [0.0]
GPU対応の通信スキームは、ホストメモリをステージングすることなく、アプリケーション内のGPU対応の通信バッファを直接GPUからNICに移動させる。
CPUスレッドは、そのようなGPU認識のサポートがあっても、通信操作をオーケストレーションするために必要である。
本稿では,CPUからGPUへ通信操作の制御経路を移動させる,GPU中心の通信方式について検討する。
論文 参考訳(メタデータ) (2025-03-31T15:43:18Z) - Harnessing Manycore Processors with Distributed Memory for Accelerated
Training of Sparse and Recurrent Models [43.1773057439246]
現在のAIトレーニングインフラストラクチャは、単一の命令多重データ(SIMD)とシストリック配列アーキテクチャによって支配されている。
分散ローカルメモリを用いた大規模並列多重命令型マルチデータアーキテクチャにおけるスパース・リカレントモデルトレーニングについて検討する。
論文 参考訳(メタデータ) (2023-11-07T23:18:35Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - PARIS and ELSA: An Elastic Scheduling Algorithm for Reconfigurable
Multi-GPU Inference Servers [0.9854614058492648]
NVIDIAのAmpere GPUアーキテクチャは、1つの大きなモノリシックGPUを複数の小さな"GPUパーティション"に"再構成"する機能を提供する。
本稿では,この新しいGPUアーキテクチャを再構成性で検討し,高性能なマルチGPUML推論サーバを開発する。
論文 参考訳(メタデータ) (2022-02-27T23:30:55Z) - PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。
しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。
PLSSVMはLVMのドロップイン代替として使用できる。
論文 参考訳(メタデータ) (2022-02-25T13:24:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。