論文の概要: ZeCO: Zero Communication Overhead Sequence Parallelism for Linear Attention
- arxiv url: http://arxiv.org/abs/2507.01004v2
- Date: Wed, 02 Jul 2025 10:04:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.775237
- Title: ZeCO: Zero Communication Overhead Sequence Parallelism for Linear Attention
- Title(参考訳): ZeCO: 線形注意のためのゼロ通信オーバヘッドシーケンス並列性
- Authors: Yuhong Chou, Zehao Liu, Ruijie Zhu, Xinyi Wan, Tianjian Li, Congying Chu, Qian Liu, Jibin Wu, Zejun Ma,
- Abstract要約: 線形アテンションモデルに対してZeCO(Zero Communication Overhead)シーケンス並列性を導入する。
ZeCOの中心には、新しい集団コミュニケーションプリミティブであるAll-Scanがある。
本研究では,ZeCOが現在のSOTA(State-of-the-art)SP法と比較して60%の高速化を実現していることを示す。
- 参考スコア(独自算出の注目度): 28.18815838918098
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Linear attention mechanisms deliver significant advantages for Large Language Models (LLMs) by providing linear computational complexity, enabling efficient processing of ultra-long sequences (e.g., 1M context). However, existing Sequence Parallelism (SP) methods, essential for distributing these workloads across devices, become the primary bottleneck due to substantial communication overhead. In this paper, we introduce ZeCO (Zero Communication Overhead) sequence parallelism for linear attention models, a new SP method designed to overcome these limitations and achieve end-to-end near-linear scalability for long sequence training. For example, training a model with a 1M sequence length across 64 devices using ZeCO takes roughly the same time as training with an 16k sequence on a single device. At the heart of ZeCO lies All-Scan, a new collective communication primitive. All-Scan provides each SP rank with precisely the initial operator state it requires while maintaining a minimal communication footprint, effectively eliminating communication overhead. Theoretically, we prove the optimaity of ZeCO, showing that it introduces only negligible time and space overhead. Empirically, we compare the communication costs of different sequence parallelism strategies and demonstrate that All-Scan achieves the fastest communication in SP scenarios. Specifically, on 256 GPUs with an 8M sequence length, ZeCO achieves a 60\% speedup compared to the current state-of-the-art (SOTA) SP method. We believe ZeCO establishes a clear path toward efficiently training next-generation LLMs on previously intractable sequence lengths.
- Abstract(参考訳): 線形注意機構は、線形計算複雑性を提供し、超長いシーケンス(例えば、1Mコンテキスト)の効率的な処理を可能にすることで、Large Language Models(LLM)に大きな利点をもたらす。
しかし、これらのワークロードをデバイスに分散させるのに不可欠な既存のシーケンス並列(SP)メソッドは、通信オーバーヘッドが大きいため、主要なボトルネックとなっている。
本稿では,線形アテンションモデルに対するZeCO(Zero Communication Overhead)シーケンシャル並列性について紹介する。
例えば、ZeCOを使用して64デバイスで1Mシーケンス長のモデルをトレーニングするには、1デバイスで16kシーケンスでトレーニングするのとほぼ同じ時間を要する。
ZeCOの中心には、新しい集団コミュニケーションプリミティブであるAll-Scanがある。
All-Scanは、最小限の通信フットプリントを維持しながら、必要な初期オペレータ状態のSPランクを正確に提供し、通信オーバーヘッドを効果的に排除する。
理論的には、ZeCOの最適性を証明し、無視可能な時間と空間のオーバーヘッドのみを導入することを示す。
実験により、異なるシーケンス並列化戦略の通信コストを比較し、All-ScanがSPシナリオで最速の通信を実現することを示す。
具体的には、8Mシーケンス長の256GPU上で、ZeCOは現在のSOTA(State-of-the-art)SP法と比較して60%のスピードアップを達成する。
我々は、ZeCOが、以前に難解なシーケンス長で次世代LLMを効率的に訓練するための明確な道を確立していると信じている。
関連論文リスト
- Training Long-Context LLMs Efficiently via Chunk-wise Optimization [60.05884946552877]
textitSequential Chunk-wise Optimization (SeCO) は、長い入力を管理可能なチャンクに分割するメモリ効率の訓練パラダイムである。
textitSparse Chunk-wise Optimization (SpaCO)を導入し、特定のチャンクへの勾配を選択的に伝播することで計算オーバーヘッドを削減する。
SpaCOは、コンテキスト長からバックプロパゲーションの計算コストを分離し、シーケンスが長くなるにつれて、トレーニング時間が徐々に推論時間に収束することを可能にする。
論文 参考訳(メタデータ) (2025-05-22T14:11:34Z) - Mini-Sequence Transformer: Optimizing Intermediate Memory for Long Sequences Training [78.93900796545523]
ミニシーケンス変換器(Mini-Sequence Transformer, MsT)は、非常に長いシーケンスを持つ高速かつ高精度なLLMトレーニング手法である。
MsTは入力シーケンスを分割し、中間メモリ使用量を減らすためにミニシーケンスを反復的に処理する。
huggingfaceライブラリと統合され、MsTはQwen、Mistral、Gemma-2の最大コンテキスト長を12-24倍に拡張した。
論文 参考訳(メタデータ) (2024-07-22T01:52:30Z) - Linear Attention Sequence Parallelism [33.06590170649837]
リニアアテンションシーケンス並列(Linear Attention Sequence Parallelism、LASP)は、線形アテンションに基づくトランスフォーマーモデルのための効率的なシーケンス並列(SP)アプローチである。
LASPは128GPU上で4096Kまでのシーケンス長をスケールし、既存のSPメソッドよりも8$times$長い。
論文 参考訳(メタデータ) (2024-04-03T17:33:21Z) - DISTFLASHATTN: Distributed Memory-efficient Attention for Long-context LLMs Training [82.06732962485754]
FlashAttentionは、1つのGPU上でのトレーニングトランスフォーマーベースの大規模言語モデル(LLM)において、2次ピークメモリの使用を線形に削減する。
本研究では,長期LLM学習に最適化されたメモリ効率の高い注意機構であるDisTFLASHATTNを紹介する。
最近のRing AttentionやDeepSpeed-Ulyssesと比較して、1.67xと1.26 - 1.88xのスピードアップを実現している。
論文 参考訳(メタデータ) (2023-10-05T03:47:57Z) - DeepSpeed Ulysses: System Optimizations for Enabling Training of Extreme
Long Sequence Transformer Models [34.74093040678323]
我々は,高度に効率的かつスケーラブルなLDMトレーニングを実現するための,新しい,ポータブルで効果的な方法論であるDeepSpeed-Ulyssesを紹介した。
DeepSpeed-Ulyssesは、そのコアでシーケンス次元に沿って入力データを分割し、効率的なオール・ツー・オールの集合通信を用いて注意を払っている。
実験の結果、DeepSpeed-Ulyssesは既存のSOTAベースラインの4倍のシーケンス長で2.5倍高速であることがわかった。
論文 参考訳(メタデータ) (2023-09-25T20:15:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。