論文の概要: GPU-Initiated Networking for NCCL
- arxiv url: http://arxiv.org/abs/2511.15076v1
- Date: Wed, 19 Nov 2025 03:36:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.616793
- Title: GPU-Initiated Networking for NCCL
- Title(参考訳): NCCLのためのGPUによるネットワーク化
- Authors: Khaled Hamidouche, John Bachan, Pak Markthub, Peter-Jan Gootzen, Elena Agostini, Sylvain Jeaugey, Aamir Shafi, Georgios Theodorakis, Manjunath Gorentla Venkata,
- Abstract要約: 従来のGPU通信は、CPUがすべての通信操作をオーケストレーションするホスト開始モデルに従っている。
本稿では,GINアーキテクチャ,設計,セマンティクスについて述べる。
- 参考スコア(独自算出の注目度): 0.7990599798388804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern AI workloads, especially Mixture-of-Experts (MoE) architectures, increasingly demand low-latency, fine-grained GPU-to-GPU communication with device-side control. Traditional GPU communication follows a host-initiated model, where the CPU orchestrates all communication operations - a characteristic of the CUDA runtime. Although robust for collective operations, applications requiring tight integration of computation and communication can benefit from device-initiated communication that eliminates CPU coordination overhead. NCCL 2.28 introduces the Device API with three operation modes: Load/Store Accessible (LSA) for NVLink/PCIe, Multimem for NVLink SHARP, and GPU-Initiated Networking (GIN) for network RDMA. This paper presents the GIN architecture, design, semantics, and highlights its impact on MoE communication. GIN builds on a three-layer architecture: i) NCCL Core host-side APIs for device communicator setup and collective memory window registration; ii) Device-side APIs for remote memory operations callable from CUDA kernels; and iii) A network plugin architecture with dual semantics (GPUDirect Async Kernel-Initiated and Proxy) for broad hardware support. The GPUDirect Async Kernel-Initiated backend leverages DOCA GPUNetIO for direct GPU-to-NIC communication, while the Proxy backend provides equivalent functionality via lock-free GPU-to-CPU queues over standard RDMA networks. We demonstrate GIN's practicality through integration with DeepEP, an MoE communication library. Comprehensive benchmarking shows that GIN provides device-initiated communication within NCCL's unified runtime, combining low-latency operations with NCCL's collective algorithms and production infrastructure.
- Abstract(参考訳): 現代のAIワークロード、特にMixture-of-Experts(MoE)アーキテクチャは、デバイス側制御による低レイテンシ、きめ細かいGPU間通信をますます要求している。
従来のGPU通信は、CPUがすべての通信操作(CUDAランタイムの特徴)をオーケストレーションするホスト開始モデルに従っている。
集合演算にはロバストだが、計算と通信の緊密な統合を必要とするアプリケーションは、CPUの調整オーバーヘッドをなくすデバイス初期化通信の恩恵を受けることができる。
NCCL 2.28は、NVLink/PCIe用のLoad/Store Accessible (LSA)、NVLink SHARP用のMultimem、ネットワークRDMA用のGPU-Initiated Networking (GIN)の3つの操作モードを備えたDevice APIを導入した。
本稿では,GINアーキテクチャ,設計,セマンティクスについて述べる。
GINは3層アーキテクチャの上に構築されている。
一 装置通信装置の設定及び集合記憶窓登録のためのNCCLコアホスト側API
二 CUDAカーネルからコール可能なリモートメモリ操作のためのデバイス側API
三 幅広いハードウェアサポートのためのデュアルセマンティクス(GPUDirect Async Kernel-Initiated and Proxy)を備えたネットワークプラグインアーキテクチャ。
GPUDirect Async Kernel-Initiated バックエンドは DOCA GPUNetIO を利用してGPU-to-NIC 通信を行う。
我々は,MOE通信ライブラリであるDeepEPとの統合により,GINの実用性を実証する。
包括的なベンチマークでは、GINがNCCLの統一ランタイム内でデバイス初期化通信を提供し、低レイテンシ操作とNCCLの集合アルゴリズムと生産インフラを組み合わせたことが示されている。
関連論文リスト
- FlexCTC: GPU-powered CTC Beam Decoding With Advanced Contextual Abilities [16.660841429852333]
本稿では、コネクショニスト時間分類(CTC)モデルのために設計された、完全ベースのビームデコーディングのためのオープンソースのFlexCTCツールキットを提案する。
PythonとPyTorchで完全に開発され、高速でユーザフレンドリで、従来のC++やWFSTベースのGPUに代わるものを提供する。
また、GPUによるN-gram言語モデルの融合やフレーズレベルの強化など、高度なコンテキスト化技術もサポートしている。
論文 参考訳(メタデータ) (2025-08-10T12:15:57Z) - Minute-Long Videos with Dual Parallelisms [57.22737565366549]
Diffusion Transformer (DiT)ベースのビデオ拡散モデルは、大規模に高品質なビデオを生成するが、長いビデオの処理遅延とメモリコストは禁じられている。
我々はDualParalと呼ばれる新しい分散推論戦略を提案する。
1つのGPUでビデオ全体を生成する代わりに、時間フレームとモデルレイヤの両方をGPU間で並列化します。
論文 参考訳(メタデータ) (2025-05-27T11:55:22Z) - GPU-centric Communication Schemes for HPC and ML Applications [0.0]
GPU対応の通信スキームは、ホストメモリをステージングすることなく、アプリケーション内のGPU対応の通信バッファを直接GPUからNICに移動させる。
CPUスレッドは、そのようなGPU認識のサポートがあっても、通信操作をオーケストレーションするために必要である。
本稿では,CPUからGPUへ通信操作の制御経路を移動させる,GPU中心の通信方式について検討する。
論文 参考訳(メタデータ) (2025-03-31T15:43:18Z) - GME: GPU-based Microarchitectural Extensions to Accelerate Homomorphic Encryption [33.87964584665433]
ホモモルフィック暗号化(FHE)は、暗号化データを復号することなく処理することができる。
FHEは、平文データを使った同じ計算と比較して最大5桁のスローダウンを導入している。
本稿では,3つのキーとなるマイクロアーキテクチャ拡張と,現在のAMD CDNA GPUアーキテクチャへのコンパイル時間最適化を組み合わせたGMEを提案する。
論文 参考訳(メタデータ) (2023-09-20T01:50:43Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - Synthesizing Collective Communication Algorithms for Heterogeneous
Networks with TACCL [1.5528708400965123]
大規模マルチGPUシステムのための集合通信プリミティブのためのシンセサイザーであるTACCLを提案する。
TACCLは、プロファイルトポロジと入力サイズを合成問題にエンコードし、最適化された通信アルゴリズムを生成する。
TACCLのアルゴリズムを使用することで、エキスパートモデルの内部混合のエンドツーエンドトレーニングを17%スピードアップする。
論文 参考訳(メタデータ) (2021-11-08T23:20:52Z) - DistGNN: Scalable Distributed Training for Large-Scale Graph Neural
Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。
本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。
4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文 参考訳(メタデータ) (2021-04-14T08:46:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。