論文の概要: UCCL-Zip: Lossless Compression Supercharged GPU Communication
- arxiv url: http://arxiv.org/abs/2604.17172v2
- Date: Tue, 21 Apr 2026 04:46:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:10.348781
- Title: UCCL-Zip: Lossless Compression Supercharged GPU Communication
- Title(参考訳): UCCL-Zip: ロスレス圧縮スーパーチャージGPU通信
- Authors: Shuang Ma, Chon Lam Lao, Zhiying Xu, Zhuang Wang, Ziming Mao, Delong Meng, Jia Zhen, Jun Wu, Ion Stoica, Yida Wang, Yang Zhou,
- Abstract要約: UCCL-ZipはP2P(point-to-point)と集合通信の両方をサポートしている。
Uzip-P2Pは、送信可能なデータを早期に公開し、圧縮と通信を重複させる分割セッションパイプラインを使用している。
Uzip-NCCL は圧縮を NCCL の永続化カーネルモデルに統合する。
- 参考スコア(独自算出の注目度): 37.95759514379356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid growth of large language models (LLMs) has made GPU communication a critical bottleneck. While prior work reduces communication volume via quantization or lossy compression, these approaches introduce numerical errors that can degrade convergence, accuracy, and stability. We present UCCL-Zip, a unified design that integrates lossless compression directly into GPU communication primitives. UCCL-Zip supports both point-to-point (P2P) and collective communication without modifying user-facing APIs or compromising numerical correctness. For P2P communication, Uzip-P2P employs a split-send pipeline that exposes transmissible data early and overlaps compression with communication, while preserving high GPU efficiency by operating on large data blocks. For collective communication, Uzip-NCCL integrates compression into NCCL's persistent kernel model via fused execution, eliminating redundant memory traffic and kernel launches. In real workloads, UCCL-Zip accelerates RL weight synchronization by up to 47.5% and reduces vLLM end-to-end inference latency by up to 10%, all without application changes.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な成長により、GPU通信は重要なボトルネックとなった。
先行研究は量子化や損失圧縮によって通信量を減らすが、これらの手法は収束率、精度、安定性を低下させる数値誤差を導入する。
我々は、損失のない圧縮を直接GPU通信プリミティブに統合する統一設計であるUCCL-Zipを提案する。
UCCL-ZipはP2P(point-to-point)と集合通信の両方をサポートしている。
P2P通信では、Uzip-P2Pは、送信可能なデータを早期に公開し、圧縮と通信を重複させるスプリットセッションパイプラインを採用している。
集団通信のために、Uzip-NCCLはNCCLの永続的なカーネルモデルに圧縮を統合する。
実際のワークロードでは、UCCL-ZipはRLの重量同期を最大47.5%高速化し、アプリケーションの変更なしに、vLLMのエンドツーエンド推論遅延を最大10%削減する。
関連論文リスト
- NCCL EP: Towards a Unified Expert Parallel Communication API for NCCL [5.243473994390624]
NCCL EP (Expert Parallelism) は、NCCLのDevice API上に構築された基礎的なMoE通信ライブラリである。
CとPythonの両方のインターフェースでncclEpDispatchとncclEpCombineプリミティブを統一する。
マルチノード構成のH100クラスタ上でNCCL EPを評価し、競合するLLカーネル性能を示し、vLLM統合によるエンドツーエンドの結果を示す。
論文 参考訳(メタデータ) (2026-03-13T21:28:22Z) - HetCCL: Accelerating LLM Training with Heterogeneous GPUs [5.820335672510985]
HetCCLは、ベンダー固有のバックエンドを統一し、ドライバの変更を必要とせずに、GPU間でRDMAベースの通信を可能にする集合通信ライブラリである。
HetCCLは、均一なセットアップでNCCLとRCCLのパフォーマンスを一致させ、異種環境において一意にスケーリングする。
論文 参考訳(メタデータ) (2026-01-30T05:31:29Z) - The Big Send-off: High Performance Collectives on GPU-based Supercomputers [1.852182371724987]
RCCLやCray-MPICHのような既存のライブラリは、Frontierのようなシステムに限界がある。
通信ライブラリであるPCCLを導入し,全プロセッサとリダクションスキャッタ操作の高度に最適化された実装について述べる。
RCCLで6-33x、Cray-MPICHで28-70x、Frontierで2048 GCDで全プロセッサで6-70xの高速化を実現している。
論文 参考訳(メタデータ) (2025-04-25T19:23:46Z) - EoRA: Fine-tuning-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation [84.70637613266835]
EoRAは、圧縮されたLarge Language Modelを低ランク行列で拡張する微調整不要な手法である。
EoRAは、圧縮LDMの精度を回復するために、トレーニングなしの低ランク法よりも一貫して優れている。
論文 参考訳(メタデータ) (2024-10-28T17:59:03Z) - FDC: Fast KV Dimensionality Compression for Efficient LLM Inference [11.194752361478567]
FDCは、既存のKV次元圧縮システムであるPaluで発生する減圧オーバーヘッドを排除し、注意時間を短縮する高速なKV次元圧縮システムである。
実験では、FDCはジョブ完了時間(JCT)を最大64%削減し、同じレイテンシで最大1.97倍のスループットを提供する。
最先端の消去法と量子化法がFDCと組み合わせられた場合、Paluと組み合わせた方法と同じような改善がなされる。
論文 参考訳(メタデータ) (2024-08-07T22:10:26Z) - LoCo: Low-Bit Communication Adaptor for Large-scale Model Training [63.040522637816906]
低ビット通信は、しばしば圧縮情報損失によってトレーニング品質が低下する。
本稿では,ローカルGPUノードを補償するLoCo(Lo-bit Communication Adaptor)を提案する。
実験結果から,Megatron-LMやPyTorchs FSDPといった大規模トレーニングモデルフレームワークの移動により,LoCoは圧縮通信効率を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-07-05T13:01:36Z) - LoCoDL: Communication-Efficient Distributed Learning with Local Training and Compression [56.01900711954956]
そこで我々はLoCoDL(LoCoDL)と,フロートの実次元ベクトルの代わりに短いビットストリームが送信される圧縮(Compression)という,ローカルトレーニングの一般的かつ効果的な2つの手法を利用する通信効率の高いアルゴリズムを紹介した。
LoCoDLは、局所的な訓練と圧縮の恩恵を受け、強い凸関数を持つ一般的な異種体制において、関数の条件数とモデル次元に関して、二重に加速された通信複雑性を享受する。
論文 参考訳(メタデータ) (2024-03-07T09:22:50Z) - Efficient Adversarial Contrastive Learning via Robustness-Aware Coreset
Selection [59.77647907277523]
敵対的コントラスト学習(ACL)は、高価なデータアノテーションを必要としないが、敵対的攻撃に耐える堅牢な表現を出力する。
ACLは、すべてのトレーニングデータの逆の変種を生成するのに、膨大な実行時間が必要です。
本稿では,ACLの高速化を目的としたロバストネス対応コアセット選択(RCS)手法を提案する。
論文 参考訳(メタデータ) (2023-02-08T03:20:14Z) - Synthesizing Collective Communication Algorithms for Heterogeneous
Networks with TACCL [1.5528708400965123]
大規模マルチGPUシステムのための集合通信プリミティブのためのシンセサイザーであるTACCLを提案する。
TACCLは、プロファイルトポロジと入力サイズを合成問題にエンコードし、最適化された通信アルゴリズムを生成する。
TACCLのアルゴリズムを使用することで、エキスパートモデルの内部混合のエンドツーエンドトレーニングを17%スピードアップする。
論文 参考訳(メタデータ) (2021-11-08T23:20:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。