論文の概要: TACO: Efficient Communication Compression of Intermediate Tensors for Scalable Tensor-Parallel LLM Training
- arxiv url: http://arxiv.org/abs/2604.24088v1
- Date: Mon, 27 Apr 2026 06:27:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.770152
- Title: TACO: Efficient Communication Compression of Intermediate Tensors for Scalable Tensor-Parallel LLM Training
- Title(参考訳): TACO:スケーラブルテンソル・パラレルLLMトレーニングにおける中間テンソルの効率的なコミュニケーション圧縮
- Authors: Man Liu, Xingchen Liu, Xingjian Tian, Bing Lu, Shengkay Lyu, Shengquan Yin, Wenjing Huang, Zheng Wei, Hairui Zhao, Guangming Tan, Dingwen Tao,
- Abstract要約: TACO(Tensor-parallel Adaptive Communication compression)は、TP中間テンソルを圧縮するための堅牢なFP8ベースのフレームワークである。
データ駆動のリフォーム戦略とAdaptive Scale-Hadamard Transformを組み合わせて、高忠実度FP8量子化を実現する。
メモリトラフィックとカーネルの起動オーバーヘッドを低減するために、高度に融合した圧縮演算子を設計する。
- 参考スコア(独自算出の注目度): 11.439182801360168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Handling communication overhead in large-scale tensor-parallel training remains a critical challenge due to the dense, near-zero distributions of intermediate tensors, which exacerbate errors under frequent communication and introduce significant computational overhead during compression. To this end, we propose TACO (Tensor-parallel Adaptive COmmunication compression), a robust FP8-based framework for compressing TP intermediate tensors. First, we employ a data-driven reshaping strategy combined with an Adaptive Scale-Hadamard Transform to enable high-fidelity FP8 quantization, while its Dual-Scale Quantization mechanism ensures numerical stability throughout training. Second, we design a highly fused compression operator to reduce memory traffic and kernel launch overhead, allowing efficient overlap with communication. Finally, we integrate TACO with existing state-of-the-art methods for Data and Pipeline Parallelism to develop a compression-enabled 3D-parallel training framework. Detailed experiments on GPT models and Qwen model demonstrate up to 1.87X end-to-end throughput improvement while maintaining near-lossless accuracy, validating the effectiveness and efficiency of TACO in large-scale training.
- Abstract(参考訳): 大規模テンソル並列訓練における通信オーバーヘッドの処理は、頻繁な通信下でエラーを悪化させ、圧縮中にかなりの計算オーバーヘッドをもたらす中間テンソルの密度が高く、ほぼゼロに近い分布のため、依然として重要な課題である。
この目的のために, TP中間テンソルを圧縮する堅牢なFP8ベースのフレームワークであるTACO(Tensor-parallel Adaptive Communication compression)を提案する。
まず,高忠実度FP8量子化を実現するために,Adaptive Scale-Hadamard Transformと組み合わせたデータ駆動型リフォーミング戦略を用いる。
第2に,メモリトラフィックとカーネル起動オーバヘッドを低減し,通信の重複を効果的に解消する,高度に融合した圧縮演算子を設計する。
最後に、TACOを既存の最先端のデータとパイプライン並列処理メソッドと統合し、圧縮可能な3D並列トレーニングフレームワークを開発する。
GPTモデルとQwenモデルに関する詳細な実験では、大規模トレーニングにおけるTACOの有効性と効率性を検証し、ほぼロスレスの精度を維持しながら、エンドツーエンドのスループットを最大1.87倍に向上することを示した。
関連論文リスト
- Protocol Models: Scaling Decentralized Training with Communication-Efficient Model Parallelism [59.79227116582264]
モデルスケーリングはディープラーニングの大幅な進歩につながったが、これらのモデルを分散環境でトレーニングすることは依然として難しい。
本研究では,前処理と後処理の両方を圧縮し,最大99%の圧縮が可能となる新しい圧縮アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-02T02:19:22Z) - PacTrain: Pruning and Adaptive Sparse Gradient Compression for Efficient Collective Communication in Distributed Deep Learning [0.0]
PacTrainは、プルーニングとスパース勾配圧縮を組み合わせることで、分散トレーニングを加速する新しいフレームワークである。
PacTrain圧縮方式は,全再生プリミティブとの互換性を維持しつつ,ほぼ最適圧縮戦略を実現する。
論文 参考訳(メタデータ) (2025-05-24T07:06:36Z) - TAGC: Optimizing Gradient Communication in Distributed Transformer Training [0.0]
Transformer-Aware Gradient Compression (TAGC) は、トランスフォーマーモデルのための最適化された勾配圧縮アルゴリズムである。
TAGCは,FSDP(Fully Sharded Data Parallel)アプローチと比較して,トレーニングを最大15%高速化することを示す。
論文 参考訳(メタデータ) (2025-04-08T03:33:39Z) - PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation [61.57833648734164]
本稿では, PYRA(Parallel Yielding Re-Activation)法を提案する。
PYRAは低圧縮率と高圧縮率の両方で競合する全ての手法より優れている。
論文 参考訳(メタデータ) (2024-03-14T09:06:49Z) - Accelerating Distributed Deep Learning using Lossless Homomorphic
Compression [17.654138014999326]
本稿では,ワーカレベルの圧縮とネットワーク内アグリゲーションを効果的に融合する新しい圧縮アルゴリズムを提案する。
集約のスループットが6.33$times$改善され、イテレーションごとのトレーニング速度が3.74$times$アップします。
論文 参考訳(メタデータ) (2024-02-12T09:57:47Z) - CrAFT: Compression-Aware Fine-Tuning for Efficient Visual Task
Adaptation [3.043665249713003]
プルーニングや量子化といったポストトレーニング後の圧縮技術は、デプロイメントコストの削減に役立つ。
本稿では,ネットワーク圧縮を効果的に訓練するフレームワークCrAFTを提案する。
CrAFTアプローチは、単一のGPUで数分または数時間以内に微調整を行うため、無視可能なトレーニングオーバーヘッドを追加する。
論文 参考訳(メタデータ) (2023-05-08T07:51:40Z) - Communication-Compressed Adaptive Gradient Method for Distributed
Nonconvex Optimization [21.81192774458227]
主なボトルネックの1つは、中央サーバとローカルワーカーの間の通信コストが大きいことである。
提案する分散学習フレームワークは,効果的な勾配勾配圧縮戦略を特徴とする。
論文 参考訳(メタデータ) (2021-11-01T04:54:55Z) - An Efficient Statistical-based Gradient Compression Technique for
Distributed Training Systems [77.88178159830905]
Sparsity-Inducing Distribution-based Compression (SIDCo) は閾値に基づくスペーシフィケーションスキームであり、DGCと同等のしきい値推定品質を享受する。
SIDCoは,非圧縮ベースライン,Topk,DGC圧縮機と比較して,最大で41:7%,7:6%,1:9%の速度でトレーニングを高速化する。
論文 参考訳(メタデータ) (2021-01-26T13:06:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。