論文の概要: ZipCCL: Efficient Lossless Data Compression of Communication Collectives for Accelerating LLM Training
- arxiv url: http://arxiv.org/abs/2604.27844v1
- Date: Thu, 30 Apr 2026 13:29:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.107843
- Title: ZipCCL: Efficient Lossless Data Compression of Communication Collectives for Accelerating LLM Training
- Title(参考訳): ZipCCL:LLM学習の高速化のためのコミュニケーション・コレクターの効率的なロスレスデータ圧縮
- Authors: Wenxiang Lin, Xinglin Pan, Ruibo Fan, Shaohuai Shi, Xiaowen Chu,
- Abstract要約: コミュニケーションは、大規模な言語モデルの分散トレーニングにおいて、重要なボトルネックとして現れてきた。
本稿では,学習用集合体の圧縮通信ライブラリZipCCLを紹介する。
ZipCCLは通信時間を最大1.35$times$に短縮し、エンドツーエンドのトレーニング速度を最大1.18$times$に向上する。
- 参考スコア(独自算出の注目度): 21.144281084668346
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Communication has emerged as a critical bottleneck in the distributed training of large language models (LLMs). While numerous approaches have been proposed to reduce communication overhead, the potential of lossless compression has remained largely underexplored since compression and decompression typically consume larger overheads than the benefits of reduced communication traffic. We observe that the communication data, including activations, gradients and parameters, during training often follows a near-Gaussian distribution, which is a key feature for data compression. Thus, we introduce ZipCCL, a lossless compressed communication library of collectives for LLM training. ZipCCL is equipped with our novel techniques: (1) theoretically grounded exponent coding that exploits the Gaussian distribution of LLM tensors to accelerate compression without expensive online statistics, (2) GPU-optimized compression and decompression kernels that carefully design memory access patterns and pipeline using communication-aware data layout, and (3) adaptive communication strategies that dynamically switch collective operations based on workload patterns and system characteristics. Evaluated on a 64-GPU cluster using both mixture-of-experts and dense transformer models, ZipCCL reduces communication time by up to 1.35$\times$ and achieves end-to-end training speedups of up to 1.18$\times$ without any impact on model quality.
- Abstract(参考訳): コミュニケーションは,大規模言語モデル(LLM)の分散トレーニングにおいて,重要なボトルネックとして浮上している。
通信オーバーヘッドを減らすために多くのアプローチが提案されているが、圧縮と減圧が通信トラフィックを減らす利点よりも大きなオーバーヘッドを消費するため、損失のない圧縮の可能性はほとんど調査されていない。
我々は、訓練中のアクティベーション、勾配、パラメータを含む通信データが、しばしばデータ圧縮の重要な特徴であるガウス近距離分布に従うことを観察する。
そこで本研究では,LLM学習用集合体の無損失圧縮通信ライブラリZipCCLを紹介する。
ZipCCLは,(1)LLMテンソルのガウス分布を利用して,高価なオンライン統計量なしで圧縮を高速化する,理論的に基底化された指数符号化,(2)通信対応データレイアウトを用いてメモリアクセスパターンとパイプラインを慎重に設計するGPU最適化圧縮および圧縮カーネル,(3)ワークロードパターンとシステム特性に基づいて集団操作を動的に切り替える適応型通信戦略を備える。
ZipCCLは、64-GPUクラスタ上で、エキスパートの混合モデルと高密度トランスフォーマーモデルの両方を用いて評価され、通信時間を最大1.35$\times$に短縮し、モデル品質に影響を与えることなく、最大1.18$\times$までエンドツーエンドのトレーニングスピードアップを達成する。
関連論文リスト
- UCCL-Zip: Lossless Compression Supercharged GPU Communication [37.95759514379356]
UCCL-ZipはP2P(point-to-point)と集合通信の両方をサポートしている。
Uzip-P2Pは、送信可能なデータを早期に公開し、圧縮と通信を重複させる分割セッションパイプラインを使用している。
Uzip-NCCL は圧縮を NCCL の永続化カーネルモデルに統合する。
論文 参考訳(メタデータ) (2026-04-19T00:05:36Z) - Accelerating Large Language Model Training with Hybrid GPU-based Compression [3.204387803072905]
MPIライブラリはメッセージサイズを大幅に削減し、相互接続帯域幅を活用することが証明されている。
分散大言語モデル(LLM)学習における圧縮支援型MPI集団の有効性について検討した。
論文 参考訳(メタデータ) (2024-09-04T04:05:30Z) - LoCo: Low-Bit Communication Adaptor for Large-scale Model Training [63.040522637816906]
低ビット通信は、しばしば圧縮情報損失によってトレーニング品質が低下する。
本稿では,ローカルGPUノードを補償するLoCo(Lo-bit Communication Adaptor)を提案する。
実験結果から,Megatron-LMやPyTorchs FSDPといった大規模トレーニングモデルフレームワークの移動により,LoCoは圧縮通信効率を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-07-05T13:01:36Z) - FedComLoc: Communication-Efficient Distributed Training of Sparse and Quantized Models [52.13056951033747]
フェデレートラーニング(FL)は、異種クライアントがローカルにプライベートデータを処理し、中央サーバーと対話できるというユニークな特徴から、注目を集めている。
FLにおける重要なボトルネックは通信コストです。
我々の研究は、FLにおける通信複雑性の低減を推進した革新的なScaffnewアルゴリズムにインスパイアされている。
我々はFedComLocを導入し、実用的で効果的な圧縮をScaffnewに統合し、通信効率をさらに高める。
論文 参考訳(メタデータ) (2024-03-14T22:29:59Z) - LoCoDL: Communication-Efficient Distributed Learning with Local Training and Compression [56.01900711954956]
そこで我々はLoCoDL(LoCoDL)と,フロートの実次元ベクトルの代わりに短いビットストリームが送信される圧縮(Compression)という,ローカルトレーニングの一般的かつ効果的な2つの手法を利用する通信効率の高いアルゴリズムを紹介した。
LoCoDLは、局所的な訓練と圧縮の恩恵を受け、強い凸関数を持つ一般的な異種体制において、関数の条件数とモデル次元に関して、二重に加速された通信複雑性を享受する。
論文 参考訳(メタデータ) (2024-03-07T09:22:50Z) - Communication-Efficient Distributed Learning with Local Immediate Error
Compensation [95.6828475028581]
本稿では,局所的即時誤差補償SGD (LIEC-SGD) 最適化アルゴリズムを提案する。
LIEC-SGDは、コンバージェンスレートまたは通信コストのいずれにおいても、以前の研究よりも優れている。
論文 参考訳(メタデータ) (2024-02-19T05:59:09Z) - Fed-CVLC: Compressing Federated Learning Communications with
Variable-Length Codes [54.18186259484828]
フェデレートラーニング(FL)パラダイムでは、パラメータサーバ(PS)がモデル収集、更新アグリゲーション、複数のラウンドでのモデル分散のために、分散参加クライアントと同時通信する。
FLの圧縮には可変長が有用であることを示す。
本稿では,Fed-CVLC(Federated Learning Compression with Variable-Length Codes)を提案する。
論文 参考訳(メタデータ) (2024-02-06T07:25:21Z) - 1-bit LAMB: Communication Efficient Large-Scale Large-Batch Training
with LAMB's Convergence Speed [17.953619054149378]
通信を圧縮した場合でも適応層学習率をサポートする新しい通信効率の高い1ビットラムを提案する。
バッチサイズが8Kから64KのBERT-Large事前学習タスクでは,NCCLベースのバックエンドを持つ1ビットLAMBが最大4.6倍の通信量削減を実現可能であることを示す。
論文 参考訳(メタデータ) (2021-04-13T10:07:49Z) - PowerGossip: Practical Low-Rank Communication Compression in
Decentralized Deep Learning [62.440827696638664]
本稿では,近隣労働者間のモデル差を直接圧縮する簡単なアルゴリズムを提案する。
中央集権的なディープラーニングのためにPowerSGDにインスパイアされたこのアルゴリズムは、パワーステップを使用して、1ビットあたりの転送情報を最大化する。
論文 参考訳(メタデータ) (2020-08-04T09:14:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。