論文の概要: NCCL EP: Towards a Unified Expert Parallel Communication API for NCCL
- arxiv url: http://arxiv.org/abs/2603.13606v1
- Date: Fri, 13 Mar 2026 21:28:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.29391
- Title: NCCL EP: Towards a Unified Expert Parallel Communication API for NCCL
- Title(参考訳): NCCL EP:NCCLのための統一専門家並列通信APIを目指して
- Authors: Amos Goldman, Nimrod Boker, Maayan Sheraizin, Nimrod Admoni, Artem Polyakov, Subhadeep Bhattacharya, Fan Yu, Kai Sun, Georgios Theodorakis, Hsin-Chun Yin, Peter-Jan Gootzen, Aamir Shafi, Assaf Ravid, Salvatore Di Girolamo, Manjunath Gorentla Venkata, Gil Bloch,
- Abstract要約: NCCL EP (Expert Parallelism) は、NCCLのDevice API上に構築された基礎的なMoE通信ライブラリである。
CとPythonの両方のインターフェースでncclEpDispatchとncclEpCombineプリミティブを統一する。
マルチノード構成のH100クラスタ上でNCCL EPを評価し、競合するLLカーネル性能を示し、vLLM統合によるエンドツーエンドの結果を示す。
- 参考スコア(独自算出の注目度): 5.243473994390624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts (MoE) architectures have become essential for scaling large language models, driving the development of specialized device-initiated communication libraries such as DeepEP, Hybrid-EP, and others. These libraries demonstrate the performance benefits of GPU-initiated RDMA for MoE dispatch and combine operations. This paper presents NCCL EP (Expert Parallelism), a ground-up MoE communication library built entirely on NCCL's Device API. NCCL EP provides unified ncclEpDispatch and ncclEpCombine primitives with both C and Python interfaces, supporting Low-Latency (LL) mode for inference decoding and High-Throughput (HT) mode for training and inference prefill. LL targets small batch sizes (1-128 tokens) using direct all-to-all RDMA+NVLink mesh connectivity with double-buffered communication for overlapping dispatch and combine phases. HT targets large batches (4096+ tokens) using hierarchical communication that aggregates tokens within NVLink domains before inter-node RDMA transmission. Both modes leverage Device API for both intra- and inter-node communications, taking advantage of its topology awareness and optimized GPU-initiated implementation. We evaluate NCCL EP on an H100-based cluster across multi-node configurations, demonstrating competitive LL kernel performance and presenting end-to-end results with vLLM integration. By building MoE communication natively within NCCL, NCCL EP provides a supported path for expert parallelism on current and emerging NVIDIA platforms.
- Abstract(参考訳): Mixture-of-Experts (MoE)アーキテクチャは、大規模な言語モデルをスケールするために欠かせないものとなり、DeepEPやHybrid-EPといった特殊なデバイス初期化通信ライブラリの開発を推進している。
これらのライブラリは、MoEディスパッチと演算の組み合わせのためのGPU初期RDMAのパフォーマンス上の利点を示している。
本稿では,NCCL EP (Expert Parallelism) について述べる。
NCCL EPは、CとPythonの両方のインターフェースで統一的なncclEpDispatchとncclEpCombineプリミティブを提供し、推論デコーディングのための低レイテンシ(LL)モードと、トレーニングと推論プリフィルのためのHigh-Throughput(HT)モードをサポートする。
LLは、ダイレクトな全対全RDMA+NVLinkメッシュ接続を使用して小さなバッチサイズ(1-128トークン)をターゲットにしている。
HTはノード間RDMA送信前にNVLinkドメイン内のトークンを集約する階層的通信を用いて、大規模なバッチ(4096+トークン)をターゲットにしている。
どちらのモードも、そのトポロジ認識とGPU初期化実装の最適化を活用して、ノード内通信とノード間通信の両方にDevice APIを活用する。
マルチノード構成のH100クラスタ上でNCCL EPを評価し、競合するLLカーネル性能を示し、vLLM統合によるエンドツーエンドの結果を示す。
NCCL内でMoE通信をネイティブに構築することにより、NCCL EPは、現在のNVIDIAプラットフォームと新興NVIDIAプラットフォームで専門家並列性をサポートするパスを提供する。
関連論文リスト
- HetCCL: Accelerating LLM Training with Heterogeneous GPUs [5.820335672510985]
HetCCLは、ベンダー固有のバックエンドを統一し、ドライバの変更を必要とせずに、GPU間でRDMAベースの通信を可能にする集合通信ライブラリである。
HetCCLは、均一なセットアップでNCCLとRCCLのパフォーマンスを一致させ、異種環境において一意にスケーリングする。
論文 参考訳(メタデータ) (2026-01-30T05:31:29Z) - UCCL-EP: Portable Expert-Parallel Communication [34.712100988183174]
DeepEPのような最先端のEP通信システムは強力な性能を示すが、異種GPUとNICプラットフォーム間のポータビリティは低い。
我々は、ヘテロジニアスGPUとNICハードウェア間でDeepEPレベルのパフォーマンスを実現するポータブルEP通信システムUCCL-EPを提案する。
論文 参考訳(メタデータ) (2025-12-22T20:05:09Z) - GPU-Initiated Networking for NCCL [0.7990599798388804]
従来のGPU通信は、CPUがすべての通信操作をオーケストレーションするホスト開始モデルに従っている。
本稿では,GINアーキテクチャ,設計,セマンティクスについて述べる。
論文 参考訳(メタデータ) (2025-11-19T03:36:03Z) - CollaPipe: Adaptive Segment-Optimized Pipeline Parallelism for Collaborative LLM Training in Heterogeneous Edge Networks [57.95170323315603]
CollaPipeは、コラボレーティブパイプライン並列性とフェデレーションアグリゲーションを統合し、自己進化型ネットワークをサポートする分散学習フレームワークである。
CollaPipeでは、エンコーダ部分は可変サイズのセグメントに適応的に分割され、パイプライン並列トレーニングのためにモバイルデバイスにデプロイされ、デコーダは生成タスクを処理するためにエッジサーバにデプロイされる。
トレーニング効率を向上させるために,モデルセグメント,マイクロバッチ,帯域幅,送信電力を適応的に割り当てる共同最適化問題を定式化する。
論文 参考訳(メタデータ) (2025-09-24T07:54:01Z) - ClusterFusion: Expanding Operator Fusion Scope for LLM Inference via Cluster-Level Collective Primitive [38.22906887556149]
大規模言語モデル(LLM)の復号化は、演算子間での断片化によるレイテンシの低下に悩まされる。
本稿では,クラスタレベルの通信プリミティブであるClusterGatherとClusterFusionを紹介する。
通信をスケジュールし、演算子融合スコープを拡張するための共同実行フレームワークであるClusterFusionを設計する。
論文 参考訳(メタデータ) (2025-08-26T09:29:23Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。