論文の概要: LASP-2: Rethinking Sequence Parallelism for Linear Attention and Its Hybrid
- arxiv url: http://arxiv.org/abs/2502.07563v1
- Date: Tue, 11 Feb 2025 14:01:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:10:38.609362
- Title: LASP-2: Rethinking Sequence Parallelism for Linear Attention and Its Hybrid
- Title(参考訳): LASP-2:線形注意のためのシーケンス並列性の再考とそのハイブリッド
- Authors: Weigao Sun, Disen Lan, Yiran Zhong, Xiaoye Qu, Yu Cheng,
- Abstract要約: 線形アテンションのような線形シーケンスモデリングアプローチは、線形時間トレーニングやシーケンス長に対する定数メモリ推論のような利点を提供する。
既存のシーケンス並列性(SP)法は、線形注意の右積第一の特徴に最適化されていないか、リングスタイルの通信戦略を用いていない。
線形アテンショントランスモデルの訓練において,通信と計算の並列性を両立させる新しいSP手法であるLASP-2を導入する。
- 参考スコア(独自算出の注目度): 25.71221522518279
- License:
- Abstract: Linear sequence modeling approaches, such as linear attention, provide advantages like linear-time training and constant-memory inference over sequence lengths. However, existing sequence parallelism (SP) methods are either not optimized for the right-product-first feature of linear attention or use a ring-style communication strategy, which results in lower computation parallelism, limits their scalability for longer sequences in distributed systems. In this paper, we introduce LASP-2, a new SP method to enhance both communication and computation parallelism when training linear attention transformer models with very-long input sequences. Compared to previous work LASP, LASP-2 rethinks the minimal communication requirement for SP on linear attention layers, reorganizes the whole communication-computation workflow of LASP. In this way, only one single AllGather collective communication is needed on intermediate memory states, whose sizes are independent of the sequence length, leading to significant improvements of both communication and computation parallelism, as well as their overlap. Additionally, we extend LASP-2 to LASP-2H by applying similar communication redesign to standard attention modules, offering an efficient SP solution for hybrid models that blend linear and standard attention layers. Our evaluation on a Linear-Llama3 model, a variant of Llama3 with linear attention replacing standard attention, demonstrates the effectiveness of LASP-2 and LASP-2H. Specifically, LASP-2 achieves training speed improvements of 15.2% over LASP and 36.6% over Ring Attention, with a sequence length of 2048K across 64 GPUs. The Code is released as a part of: https://github.com/OpenSparseLLMs/Linear-MoE.
- Abstract(参考訳): 線形アテンションのような線形シーケンスモデリングアプローチは、線形時間トレーニングやシーケンス長に対する定数メモリ推論のような利点を提供する。
しかし、既存のシーケンス並列性(SP)法は、線形注意の右積第一の特徴に最適化されていないか、リングスタイルの通信戦略を用いており、計算並列性が低下し、分散システムにおける長いシーケンスのスケーラビリティが制限される。
本稿では、非常に長い入力シーケンスを持つ線形アテンショントランスフォーマーモデルを訓練する際に、通信と計算の並列性を両立させる新しいSP手法であるLASP-2を紹介する。
LASP-2は、以前のLASPと比較して、線形注意層におけるSPの最小限の通信要件を再考し、LASPの通信計算ワークフロー全体を再構成する。
このように、1つのAllGather集合的通信が中間記憶状態において必要であり、そのサイズはシーケンス長に依存しないため、通信と計算並列性の両方が大幅に改善され、重複する。
さらに、LASP-2をLASP-2Hに拡張し、同様の通信再設計を標準アテンションモジュールに適用し、線形および標準アテンション層をブレンドしたハイブリッドモデルのための効率的なSPソリューションを提供する。
Llama3 の線形アテンションモデルである Linear-Llama3 モデルについて,LASP-2 と LASP-2H の有効性を実証した。
具体的には、LASP-2はLASPよりも15.2%、Ring Attentionより36.6%、シーケンス長は64GPUで2048Kである。
https://github.com/OpenSparseLLMs/Linear-MoE。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Mini-Sequence Transformer: Optimizing Intermediate Memory for Long Sequences Training [78.93900796545523]
ミニシーケンス変換器(Mini-Sequence Transformer, MsT)は、非常に長いシーケンスを持つ高速かつ高精度なLLMトレーニング手法である。
MsTは入力シーケンスを分割し、中間メモリ使用量を減らすためにミニシーケンスを反復的に処理する。
huggingfaceライブラリと統合され、MsTはQwen、Mistral、Gemma-2の最大コンテキスト長を12-24倍に拡張した。
論文 参考訳(メタデータ) (2024-07-22T01:52:30Z) - Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。
提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文 参考訳(メタデータ) (2024-06-12T12:12:38Z) - Linear Attention Sequence Parallelism [33.06590170649837]
線形アテンションに基づく変圧器モデルのための線形アテンションシーケンス並列性(LASP)を導入する。
LASPは、線形注意による適切な製品カーネルトリックを活用し、通信オーバーヘッドを劇的に削減する。
LASPは128GPU上で4096Kまでのシーケンス長をスケールし、既存のSPメソッドよりも8$times$長い。
論文 参考訳(メタデータ) (2024-04-03T17:33:21Z) - Lightning Attention-2: A Free Lunch for Handling Unlimited Sequence
Lengths in Large Language Models [20.78813311569383]
本稿では、線形アテンションによる理論計算の利点を実現するための最初の線形アテンション実装であるLightning Attentionを紹介する。
具体的には、従来のアテンション機構をブロック内に適用し、インターブロックに対して線形アテンションカーネルのトリックを適用する。
異なるモデルサイズとシーケンス長について様々な実験を行った。
論文 参考訳(メタデータ) (2024-01-09T16:27:28Z) - Gated Linear Attention Transformers with Hardware-Efficient Training [60.670102007737476]
本研究は、並列化性に対してメモリ移動をオフにする線形注意のためのハードウェア効率のアルゴリズムについて述べる。
次に、このアルゴリズムを、データ依存ゲートを用いたより表現力豊かな線形アテンションに一般化する。
変圧器の標準アテンション層に代えて使用すると、結果として生じるゲート状リニアアテンショントランスが競合的に動作することが分かる。
論文 参考訳(メタデータ) (2023-12-11T18:51:59Z) - DeepSpeed Ulysses: System Optimizations for Enabling Training of Extreme
Long Sequence Transformer Models [34.74093040678323]
我々は,高度に効率的かつスケーラブルなLDMトレーニングを実現するための,新しい,ポータブルで効果的な方法論であるDeepSpeed-Ulyssesを紹介した。
DeepSpeed-Ulyssesは、そのコアでシーケンス次元に沿って入力データを分割し、効率的なオール・ツー・オールの集合通信を用いて注意を払っている。
実験の結果、DeepSpeed-Ulyssesは既存のSOTAベースラインの4倍のシーケンス長で2.5倍高速であることがわかった。
論文 参考訳(メタデータ) (2023-09-25T20:15:57Z) - Efficient Long Sequence Modeling via State Space Augmented Transformer [92.74707853711374]
我々はSPADE($underlinetextbfS$tate sunderlinetextbfP$ace)を提案する。
我々は,SPADEの底層にSSMを付加し,他の層に対して効率的な局所的注意法を適用した。
Long Range Arenaベンチマークと言語モデリングタスクの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-12-15T20:51:27Z) - PlueckerNet: Learn to Register 3D Line Reconstructions [57.20244406275875]
本稿では,ユークリッド空間における2つの部分重畳された3次元線再構成の問題をニューラルネットワークで解く手法を提案する。
室内および屋外の両方のデータセットを用いた実験により,本手法の登録精度(回転と翻訳)は,ベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2020-12-02T11:31:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。