論文の概要: CCCL: In-GPU Compression-Coupled Collective Communication
- arxiv url: http://arxiv.org/abs/2604.17172v1
- Date: Sun, 19 Apr 2026 00:05:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.367784
- Title: CCCL: In-GPU Compression-Coupled Collective Communication
- Title(参考訳): CCCL:GPU内圧縮結合型集団通信
- Authors: Chon Lam Lao, Zhiying Xu, Zhuang Wang, Ziming Mao, Delong Meng, Jia Zhen, Jun Wu, Ion Stoica, Yida Wang, Yang Zhou,
- Abstract要約: 本稿では,圧縮に基づく集団通信ライブラリであるCCCLを紹介する。
allreduce, alltoall, send/recvなどの操作を,ユーザ側の変更を必要とせずにサポートする。
評価の結果、CCCLはvLLM PD分散ワークロードのエンドツーエンドスループットを最大10.1%向上し、マイクロベンチマークスループットを最大30%向上した。
- 参考スコア(独自算出の注目度): 33.800352619258476
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Collective communication incurs significant overhead in LLM workloads. Although overlapping communication with computation in application-level is a common strategy, it often requires substantial code modifications and is impractical for many workloads (e.g., tensor and expert parallelism). We present CCCL, a built-in compression-based collective communication library that supports operations such as allreduce, alltoall, and send/recv without requiring any user-side changes, thereby enabling seamless adoption in existing applications. CCCL tightly fuses compression kernels to minimize memory accesses and integrates with NCCL to eliminate the data coalescing stage, making it fast enough (up to 3x NVLink bandwidth) to sustain communication. Our evaluation shows that CCCL improves end-to-end throughput in vLLM PD disaggregation workloads by up to 10.1% and microbenchmark throughput by up to 30%.
- Abstract(参考訳): 集合的コミュニケーションは、LLMワークロードでかなりのオーバーヘッドを発生させる。
アプリケーションレベルでの計算と重複する通信は一般的な戦略だが、コード修正が必要な場合が多く、多くのワークロード(例:テンソル、エキスパート並列処理)では現実的ではない。
CCCLは,ユーザ側の変更を必要とせずに allreduce, alltoall, send/recv などの操作をサポートする,圧縮ベースの集合通信ライブラリである。
CCCLは圧縮カーネルを融合させてメモリアクセスを最小限にし、NCCLと統合してデータ結合の段階をなくし、通信を維持するのに十分な速度(最大3倍のNVLink帯域)を実現する。
評価の結果、CCCLはvLLM PD分散ワークロードのエンドツーエンドスループットを最大10.1%向上し、マイクロベンチマークスループットを最大30%向上した。
関連論文リスト
- NCCL EP: Towards a Unified Expert Parallel Communication API for NCCL [5.243473994390624]
NCCL EP (Expert Parallelism) は、NCCLのDevice API上に構築された基礎的なMoE通信ライブラリである。
CとPythonの両方のインターフェースでncclEpDispatchとncclEpCombineプリミティブを統一する。
マルチノード構成のH100クラスタ上でNCCL EPを評価し、競合するLLカーネル性能を示し、vLLM統合によるエンドツーエンドの結果を示す。
論文 参考訳(メタデータ) (2026-03-13T21:28:22Z) - HetCCL: Accelerating LLM Training with Heterogeneous GPUs [5.820335672510985]
HetCCLは、ベンダー固有のバックエンドを統一し、ドライバの変更を必要とせずに、GPU間でRDMAベースの通信を可能にする集合通信ライブラリである。
HetCCLは、均一なセットアップでNCCLとRCCLのパフォーマンスを一致させ、異種環境において一意にスケーリングする。
論文 参考訳(メタデータ) (2026-01-30T05:31:29Z) - The Big Send-off: High Performance Collectives on GPU-based Supercomputers [1.852182371724987]
RCCLやCray-MPICHのような既存のライブラリは、Frontierのようなシステムに限界がある。
通信ライブラリであるPCCLを導入し,全プロセッサとリダクションスキャッタ操作の高度に最適化された実装について述べる。
RCCLで6-33x、Cray-MPICHで28-70x、Frontierで2048 GCDで全プロセッサで6-70xの高速化を実現している。
論文 参考訳(メタデータ) (2025-04-25T19:23:46Z) - EoRA: Fine-tuning-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation [84.70637613266835]
EoRAは、圧縮されたLarge Language Modelを低ランク行列で拡張する微調整不要な手法である。
EoRAは、圧縮LDMの精度を回復するために、トレーニングなしの低ランク法よりも一貫して優れている。
論文 参考訳(メタデータ) (2024-10-28T17:59:03Z) - FDC: Fast KV Dimensionality Compression for Efficient LLM Inference [11.194752361478567]
FDCは、既存のKV次元圧縮システムであるPaluで発生する減圧オーバーヘッドを排除し、注意時間を短縮する高速なKV次元圧縮システムである。
実験では、FDCはジョブ完了時間(JCT)を最大64%削減し、同じレイテンシで最大1.97倍のスループットを提供する。
最先端の消去法と量子化法がFDCと組み合わせられた場合、Paluと組み合わせた方法と同じような改善がなされる。
論文 参考訳(メタデータ) (2024-08-07T22:10:26Z) - LoCo: Low-Bit Communication Adaptor for Large-scale Model Training [63.040522637816906]
低ビット通信は、しばしば圧縮情報損失によってトレーニング品質が低下する。
本稿では,ローカルGPUノードを補償するLoCo(Lo-bit Communication Adaptor)を提案する。
実験結果から,Megatron-LMやPyTorchs FSDPといった大規模トレーニングモデルフレームワークの移動により,LoCoは圧縮通信効率を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-07-05T13:01:36Z) - LoCoDL: Communication-Efficient Distributed Learning with Local Training and Compression [56.01900711954956]
そこで我々はLoCoDL(LoCoDL)と,フロートの実次元ベクトルの代わりに短いビットストリームが送信される圧縮(Compression)という,ローカルトレーニングの一般的かつ効果的な2つの手法を利用する通信効率の高いアルゴリズムを紹介した。
LoCoDLは、局所的な訓練と圧縮の恩恵を受け、強い凸関数を持つ一般的な異種体制において、関数の条件数とモデル次元に関して、二重に加速された通信複雑性を享受する。
論文 参考訳(メタデータ) (2024-03-07T09:22:50Z) - Efficient Adversarial Contrastive Learning via Robustness-Aware Coreset
Selection [59.77647907277523]
敵対的コントラスト学習(ACL)は、高価なデータアノテーションを必要としないが、敵対的攻撃に耐える堅牢な表現を出力する。
ACLは、すべてのトレーニングデータの逆の変種を生成するのに、膨大な実行時間が必要です。
本稿では,ACLの高速化を目的としたロバストネス対応コアセット選択(RCS)手法を提案する。
論文 参考訳(メタデータ) (2023-02-08T03:20:14Z) - Synthesizing Collective Communication Algorithms for Heterogeneous
Networks with TACCL [1.5528708400965123]
大規模マルチGPUシステムのための集合通信プリミティブのためのシンセサイザーであるTACCLを提案する。
TACCLは、プロファイルトポロジと入力サイズを合成問題にエンコードし、最適化された通信アルゴリズムを生成する。
TACCLのアルゴリズムを使用することで、エキスパートモデルの内部混合のエンドツーエンドトレーニングを17%スピードアップする。
論文 参考訳(メタデータ) (2021-11-08T23:20:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。