論文の概要: ZeCO: Zero Communication Overhead Sequence Parallelism for Linear Attention
- arxiv url: http://arxiv.org/abs/2507.01004v2
- Date: Wed, 02 Jul 2025 10:04:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.775237
- Title: ZeCO: Zero Communication Overhead Sequence Parallelism for Linear Attention
- Title(参考訳): ZeCO: 線形注意のためのゼロ通信オーバヘッドシーケンス並列性
- Authors: Yuhong Chou, Zehao Liu, Ruijie Zhu, Xinyi Wan, Tianjian Li, Congying Chu, Qian Liu, Jibin Wu, Zejun Ma,
- Abstract要約: 線形アテンションモデルに対してZeCO(Zero Communication Overhead)シーケンス並列性を導入する。
ZeCOの中心には、新しい集団コミュニケーションプリミティブであるAll-Scanがある。
本研究では,ZeCOが現在のSOTA(State-of-the-art)SP法と比較して60%の高速化を実現していることを示す。
- 参考スコア(独自算出の注目度): 28.18815838918098
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Linear attention mechanisms deliver significant advantages for Large Language Models (LLMs) by providing linear computational complexity, enabling efficient processing of ultra-long sequences (e.g., 1M context). However, existing Sequence Parallelism (SP) methods, essential for distributing these workloads across devices, become the primary bottleneck due to substantial communication overhead. In this paper, we introduce ZeCO (Zero Communication Overhead) sequence parallelism for linear attention models, a new SP method designed to overcome these limitations and achieve end-to-end near-linear scalability for long sequence training. For example, training a model with a 1M sequence length across 64 devices using ZeCO takes roughly the same time as training with an 16k sequence on a single device. At the heart of ZeCO lies All-Scan, a new collective communication primitive. All-Scan provides each SP rank with precisely the initial operator state it requires while maintaining a minimal communication footprint, effectively eliminating communication overhead. Theoretically, we prove the optimaity of ZeCO, showing that it introduces only negligible time and space overhead. Empirically, we compare the communication costs of different sequence parallelism strategies and demonstrate that All-Scan achieves the fastest communication in SP scenarios. Specifically, on 256 GPUs with an 8M sequence length, ZeCO achieves a 60\% speedup compared to the current state-of-the-art (SOTA) SP method. We believe ZeCO establishes a clear path toward efficiently training next-generation LLMs on previously intractable sequence lengths.
- Abstract(参考訳): 線形注意機構は、線形計算複雑性を提供し、超長いシーケンス(例えば、1Mコンテキスト)の効率的な処理を可能にすることで、Large Language Models(LLM)に大きな利点をもたらす。
しかし、これらのワークロードをデバイスに分散させるのに不可欠な既存のシーケンス並列(SP)メソッドは、通信オーバーヘッドが大きいため、主要なボトルネックとなっている。
本稿では,線形アテンションモデルに対するZeCO(Zero Communication Overhead)シーケンシャル並列性について紹介する。
例えば、ZeCOを使用して64デバイスで1Mシーケンス長のモデルをトレーニングするには、1デバイスで16kシーケンスでトレーニングするのとほぼ同じ時間を要する。
ZeCOの中心には、新しい集団コミュニケーションプリミティブであるAll-Scanがある。
All-Scanは、最小限の通信フットプリントを維持しながら、必要な初期オペレータ状態のSPランクを正確に提供し、通信オーバーヘッドを効果的に排除する。
理論的には、ZeCOの最適性を証明し、無視可能な時間と空間のオーバーヘッドのみを導入することを示す。
実験により、異なるシーケンス並列化戦略の通信コストを比較し、All-ScanがSPシナリオで最速の通信を実現することを示す。
具体的には、8Mシーケンス長の256GPU上で、ZeCOは現在のSOTA(State-of-the-art)SP法と比較して60%のスピードアップを達成する。
我々は、ZeCOが、以前に難解なシーケンス長で次世代LLMを効率的に訓練するための明確な道を確立していると信じている。
関連論文リスト
- Training Long-Context LLMs Efficiently via Chunk-wise Optimization [60.05884946552877]
textitSequential Chunk-wise Optimization (SeCO) は、長い入力を管理可能なチャンクに分割するメモリ効率の訓練パラダイムである。
textitSparse Chunk-wise Optimization (SpaCO)を導入し、特定のチャンクへの勾配を選択的に伝播することで計算オーバーヘッドを削減する。
SpaCOは、コンテキスト長からバックプロパゲーションの計算コストを分離し、シーケンスが長くなるにつれて、トレーニング時間が徐々に推論時間に収束することを可能にする。
論文 参考訳(メタデータ) (2025-05-22T14:11:34Z) - ByteScale: Efficient Scaling of LLM Training with a 2048K Context Length on More Than 12,000 GPUs [22.542224045868117]
ByteScaleは、長いシーケンスと短いシーケンスの大規模な混合トレーニングのための効率的なフレームワークである。
ByteScaleはHybrid Data Parallelism(HDP)をベースにしている。
実験の結果,ByteScaleは最先端のトレーニングシステムよりも最大7.89倍優れていた。
論文 参考訳(メタデータ) (2025-02-28T17:01:03Z) - LASP-2: Rethinking Sequence Parallelism for Linear Attention and Its Hybrid [25.71221522518279]
線形アテンションのような線形シーケンスモデリングアプローチは、線形時間トレーニングやシーケンス長に対する定数メモリ推論のような利点を提供する。
既存のシーケンス並列性(SP)法は、線形注意の右積第一の特徴に最適化されていないか、リングスタイルの通信戦略を用いていない。
線形アテンショントランスモデルの訓練において,通信と計算の並列性を両立させる新しいSP手法であるLASP-2を導入する。
論文 参考訳(メタデータ) (2025-02-11T14:01:39Z) - Star Attention: Efficient LLM Inference over Long Sequences [17.401430615714]
本稿では,複数のホストに注意を向けることで,計算効率を向上させる2相ブロックスパース近似であるStar Attentionを紹介する。
Star Attentionは、グローバルに注意を払ってトレーニングされたほとんどのTransformerベースのLarge Language Modelとシームレスに統合され、メモリ要件と推論時間を最大11倍に短縮する。
論文 参考訳(メタデータ) (2024-11-26T05:10:04Z) - Mini-Sequence Transformer: Optimizing Intermediate Memory for Long Sequences Training [78.93900796545523]
ミニシーケンス変換器(Mini-Sequence Transformer, MsT)は、非常に長いシーケンスを持つ高速かつ高精度なLLMトレーニング手法である。
MsTは入力シーケンスを分割し、中間メモリ使用量を減らすためにミニシーケンスを反復的に処理する。
huggingfaceライブラリと統合され、MsTはQwen、Mistral、Gemma-2の最大コンテキスト長を12-24倍に拡張した。
論文 参考訳(メタデータ) (2024-07-22T01:52:30Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。
提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文 参考訳(メタデータ) (2024-06-12T12:12:38Z) - Linear Attention Sequence Parallelism [33.06590170649837]
リニアアテンションシーケンス並列(Linear Attention Sequence Parallelism、LASP)は、線形アテンションに基づくトランスフォーマーモデルのための効率的なシーケンス並列(SP)アプローチである。
LASPは128GPU上で4096Kまでのシーケンス長をスケールし、既存のSPメソッドよりも8$times$長い。
論文 参考訳(メタデータ) (2024-04-03T17:33:21Z) - BurstAttention: An Efficient Distributed Attention Framework for Extremely Long Sequences [96.74779792715819]
本稿では,BurstAttention'という分散アテンションフレームワークを提案し,メモリアクセスと通信操作を最適化する。
異なる長さ設定下での実験結果は、BurstAttentionが長いシーケンスを処理する上で大きな利点があることを示している。
論文 参考訳(メタデータ) (2024-03-14T12:51:58Z) - DISTFLASHATTN: Distributed Memory-efficient Attention for Long-context LLMs Training [82.06732962485754]
FlashAttentionは、1つのGPU上でのトレーニングトランスフォーマーベースの大規模言語モデル(LLM)において、2次ピークメモリの使用を線形に削減する。
本研究では,長期LLM学習に最適化されたメモリ効率の高い注意機構であるDisTFLASHATTNを紹介する。
最近のRing AttentionやDeepSpeed-Ulyssesと比較して、1.67xと1.26 - 1.88xのスピードアップを実現している。
論文 参考訳(メタデータ) (2023-10-05T03:47:57Z) - DeepSpeed Ulysses: System Optimizations for Enabling Training of Extreme
Long Sequence Transformer Models [34.74093040678323]
我々は,高度に効率的かつスケーラブルなLDMトレーニングを実現するための,新しい,ポータブルで効果的な方法論であるDeepSpeed-Ulyssesを紹介した。
DeepSpeed-Ulyssesは、そのコアでシーケンス次元に沿って入力データを分割し、効率的なオール・ツー・オールの集合通信を用いて注意を払っている。
実験の結果、DeepSpeed-Ulyssesは既存のSOTAベースラインの4倍のシーケンス長で2.5倍高速であることがわかった。
論文 参考訳(メタデータ) (2023-09-25T20:15:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。