Fugu-MT 論文翻訳(概要): Linear Attention Sequence Parallelism

論文の概要: Linear Attention Sequence Parallelism

arxiv url: http://arxiv.org/abs/2404.02882v1
Date: Wed, 3 Apr 2024 17:33:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-04 16:40:30.956315
Title: Linear Attention Sequence Parallelism
Title（参考訳）: 線形注意シーケンス並列性
Authors: Weigao Sun, Zhen Qin, Dong Li, Xuyang Shen, Yu Qiao, Yiran Zhong,
Abstract要約: 線形アテンションに基づく言語モデルに適した,効率的なシーケンス並列 (SP) 手法であるLinear Attention Sequence Parallel (LASP) を導入する。 LASP は,SP の通信オーバーヘッドを著しく低減する,線形注意による右産物カーネルのトリックを生かしている。 LASPは1Bモデル上で128のA100 80G GPUを使用してシーケンス長を最大4096Kまでスケールする。
参考スコア（独自算出の注目度）: 33.06590170649837
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Sequence Parallel (SP) serves as a prevalent strategy to handle long sequences that exceed the memory limit of a single GPU. However, existing SP methods do not take advantage of linear attention features, resulting in sub-optimal parallelism efficiency and usability for linear attention-based language models. In this paper, we introduce Linear Attention Sequence Parallel (LASP), an efficient SP method tailored to linear attention-based language models. Specifically, we design an efficient point-to-point communication mechanism to leverage the right-product kernel trick of linear attention, which sharply decreases the communication overhead of SP. We also enhance the practical efficiency of LASP by performing kernel fusion and intermediate state caching, making the implementation of LASP hardware-friendly on GPU clusters. Furthermore, we meticulously ensure the compatibility of sequence-level LASP with all types of batch-level data parallel methods, which is vital for distributed training on large clusters with long sequences and large batches. We conduct extensive experiments on two linear attention-based models with varying sequence lengths and GPU cluster sizes. LASP scales sequence length up to 4096K using 128 A100 80G GPUs on 1B models, which is 8 times longer than existing SP methods while being significantly faster. The code is available at https://github.com/OpenNLPLab/LASP.
Abstract（参考訳）: Sequence Parallel (SP)は、単一のGPUのメモリ限界を超える長いシーケンスを扱うための一般的な戦略である。しかし,既存のSP手法は線形注意の特徴を生かせず,線形注意に基づく言語モデルに対する準最適並列性効率とユーザビリティをもたらす。本稿では,線形注意に基づく言語モデルに適した効率的なSP手法であるLinear Attention Sequence Parallel(LASP)を提案する。具体的には、線形アテンションの右産物カーネルトリックを活用するための効率的なポイントツーポイント通信機構を設計し、SPの通信オーバーヘッドを劇的に削減する。また、カーネルフュージョンと中間状態キャッシュを実行することで、LASPの実用効率を高め、GPUクラスタ上でのLASPハードウェアフレンドリな実装を実現した。さらに、長いシーケンスと大きなバッチを持つ大規模クラスタ上での分散トレーニングに不可欠であるバッチレベルのデータ並列メソッドのすべてのタイプとのシーケンスレベルのLASPの互換性を慎重に保証する。異なるシーケンス長とGPUクラスタサイズを持つ2つの線形アテンションベースモデルについて広範な実験を行った。 LASPは1Bモデル上で128のA100 80G GPUを使用してシーケンス長を最大4096Kまでスケールする。コードはhttps://github.com/OpenNLPLab/LASP.comで公開されている。

関連論文リスト

PRISM: Parallel Residual Iterative Sequence Model [52.26239951489612]
我々はこの緊張を解決するためにPRISM(Parallel Residual Iterative Sequence Model)を提案する。 PRISMは、パラレル化可能な形で多段階精製の重要な構造特性を捉える、ソルバに着想を得た帰納バイアスを導入している。この定式化が Rank-$L$ の蓄積を達成することを証明し、更新多様体を単一ステップの Rank-$1$ ボトルネックを超えて構造的に拡張する。
論文参考訳（メタデータ） (2026-02-11T12:39:41Z)
GSPN-2: Efficient Parallel Sequence Modeling [101.33780567131716]
一般化空間伝搬ネットワーク(GSPN)は2次自己アテンションを直線走査型伝搬方式に置き換えることでこの問題に対処する。 GSPN-2は、視覚アプリケーションにおけるグローバル空間コンテキストをモデル化するための新しい効率フロンティアを確立する。
論文参考訳（メタデータ） (2025-11-28T07:26:45Z)
Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。 BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文参考訳（メタデータ） (2025-11-04T01:15:44Z)
Higher-order Linear Attention [59.92962330635185]
スケールされたドット積の注意の二次コストは、自己回帰言語モデルを長いコンテキストにスケールするための中心的な障害である。本稿では,高次線形注意(Higher-order Linear Attention, HLA)を提案する。
論文参考訳（メタデータ） (2025-10-31T07:54:37Z)
Scaling Generative Recommendations with Context Parallelism on Hierarchical Sequential Transducers [29.05624030090006]
本稿では,HSTUアテンションに対するジャグテンソルサポートによるコンテキスト並列化を導入し,シーケンス次元のスケールアップのための基礎的機能を確立する。提案手法により,分散データ並列処理(DDP)と組み合わせることで,ユーザインタラクションのシーケンス長が5.3倍向上し,スケーリング係数が1.55倍になる。
論文参考訳（メタデータ） (2025-07-23T07:28:05Z)
ZeCO: Zero Communication Overhead Sequence Parallelism for Linear Attention [28.18815838918098]
線形アテンションモデルに対してZeCO(Zero Communication Overhead)シーケンス並列性を導入する。 ZeCOの中心には、新しい集団コミュニケーションプリミティブであるAll-Scanがある。本研究では,ZeCOが現在のSOTA(State-of-the-art)SP法と比較して60%の高速化を実現していることを示す。
論文参考訳（メタデータ） (2025-07-01T17:54:53Z)
HelixPipe: Efficient Distributed Training of Long Sequence Transformers with Attention Parallel Pipeline Parallelism [14.067070576474086]
トランスシークエンスの長さが大きくなるにつれて、既存のパイプライン並列処理は2次注意計算とかなりのメモリオーバーヘッドのため、最適以下の性能を実現する。長周期変圧器訓練のための新しいパイプライン並列性であるHelixPipeを提案する。これは、異なるパイプラインステージ間で異なるマイクロバッチのアテンション計算を並列にスケジュールし、パイプラインバブルを減少させる、アテンション並列パーティションを導入している。メモリ使用量のバランスと、フラグメンテーションによる重複通信のバランスをとるために、2倍の第一段階のマイクロバッチスケジュールを採用している。
論文参考訳（メタデータ） (2025-07-01T03:11:18Z)
Nesterov Method for Asynchronous Pipeline Parallel Optimization [59.79227116582264]
パイプライン並列処理における非同期最適化のために,Nesterov Accelerated Gradient (NAG) の変種を導入する。具体的には、NAGのルックアヘッドステップを変更して、勾配の安定性を効果的に解決する。我々は、勾配の固定遅延の存在下で、我々のアプローチがサブ線形速度で収束することを理論的に証明する。
論文参考訳（メタデータ） (2025-05-02T08:23:29Z)
LASP-2: Rethinking Sequence Parallelism for Linear Attention and Its Hybrid [25.71221522518279]
線形アテンションのような線形シーケンスモデリングアプローチは、線形時間トレーニングやシーケンス長に対する定数メモリ推論のような利点を提供する。既存のシーケンス並列性(SP)法は、線形注意の右積第一の特徴に最適化されていないか、リングスタイルの通信戦略を用いていない。線形アテンショントランスモデルの訓練において,通信と計算の並列性を両立させる新しいSP手法であるLASP-2を導入する。
論文参考訳（メタデータ） (2025-02-11T14:01:39Z)
Parallel Sequence Modeling via Generalized Spatial Propagation Network [80.66202109995726]
Generalized Spatial Propagation Network (GSPN)は、2次元空間構造を本質的にキャプチャする最適化された視覚タスクのための新しいアテンションメカニズムである。 GSPNは、空間的コヒーレントな画像データを直接操作し、ラインスキャンアプローチを通じて高密度なペアワイズ接続を形成することにより、制限を克服する。 GSPNは、ImageNet分類、クラス誘導画像生成、テキスト・ツー・イメージ生成などの視覚タスクにおいて、より優れた空間忠実性と最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-01-21T18:56:19Z)
FlexSP: Accelerating Large Language Model Training via Flexible Sequence Parallelism [33.23902060961886]
既存のシーケンス並列化法は、均質なシーケンス長(すなわち全ての入力シーケンスの長さが等しい)を仮定し、従って全ての入力シーケンスに対して単一の静的散乱戦略を利用する。 LLMトレーニングコーパスの配列長は,長い尾分布の後に大きく変動することがわかった。この問題に対処する不均一適応列並列化法を提案する。
論文参考訳（メタデータ） (2024-12-02T14:16:03Z)
POD-Attention: Unlocking Full Prefill-Decode Overlap for Faster LLM Inference [9.164093249308419]
我々は、ハイブリッドバッチの注意を効率的に計算する最初のGPUカーネルであるPOD-Attentionを紹介する。 POD-Attentionは、GPUのリソースを慎重に割り当てることで、計算帯域とメモリ帯域の両方の利用を最大化することを目的としている。
論文参考訳（メタデータ） (2024-10-23T17:06:56Z)
Mini-Sequence Transformer: Optimizing Intermediate Memory for Long Sequences Training [78.93900796545523]
ミニシーケンス変換器(Mini-Sequence Transformer, MsT)は、非常に長いシーケンスを持つ高速かつ高精度なLLMトレーニング手法である。 MsTは入力シーケンスを分割し、中間メモリ使用量を減らすためにミニシーケンスを反復的に処理する。 huggingfaceライブラリと統合され、MsTはQwen、Mistral、Gemma-2の最大コンテキスト長を12-24倍に拡張した。
論文参考訳（メタデータ） (2024-07-22T01:52:30Z)
Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文参考訳（メタデータ） (2024-06-24T15:55:59Z)
Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文参考訳（メタデータ） (2024-06-12T12:12:38Z)
Various Lengths, Constant Speed: Efficient Language Modeling with Lightning Attention [19.618556742380086]
固定メモリ使用時の各種シーケンス長のトレーニング速度を一定に維持する最初の線形アテンション実装であるLightning Attentionを提案する。有効性を保ちながら精度を高めるために,我々の雷の注意に合わせた新しいアーキテクチャであるTransNormerLLM(TNL)を導入する。
論文参考訳（メタデータ） (2024-05-27T17:38:13Z)
USP: A Unified Sequence Parallelism Approach for Long Context Generative AI [1.973144426163543]
シーケンス並列性(SP)は、生成AIモデルの長期コンテキスト機能をアンロックする鍵となっている。本稿では,最先端SPアプローチ,すなわちDeepSpeed-UlyssesとRing-Attentionについて検討し,統一SPアプローチを提案する。 LLAMA3-8BモデルトレーニングにSPを用いた2つの8xA800ノードに対して,シーケンス長208Kを用いた47%のMFUを達成した。
論文参考訳（メタデータ） (2024-05-13T13:08:02Z)
BurstAttention: An Efficient Distributed Attention Framework for Extremely Long Sequences [96.74779792715819]
本稿では,BurstAttention'という分散アテンションフレームワークを提案し,メモリアクセスと通信操作を最適化する。異なる長さ設定下での実験結果は、BurstAttentionが長いシーケンスを処理する上で大きな利点があることを示している。
論文参考訳（メタデータ） (2024-03-14T12:51:58Z)
AcceleratedLiNGAM: Learning Causal DAGs at the speed of GPUs [57.12929098407975]
既存の因果探索法を効率的に並列化することにより,数千次元まで拡張可能であることを示す。具体的には、DirectLiNGAMの因果順序付けサブプロデューサに着目し、GPUカーネルを実装して高速化する。これにより、遺伝子介入による大規模遺伝子発現データに対する因果推論にDirectLiNGAMを適用することで、競争結果が得られる。
論文参考訳（メタデータ） (2024-03-06T15:06:11Z)
Lightning Attention-2: A Free Lunch for Handling Unlimited Sequence Lengths in Large Language Models [20.78813311569383]
本稿では、線形アテンションによる理論計算の利点を実現するための最初の線形アテンション実装であるLightning Attentionを紹介する。具体的には、従来のアテンション機構をブロック内に適用し、インターブロックに対して線形アテンションカーネルのトリックを適用する。異なるモデルサイズとシーケンス長について様々な実験を行った。
論文参考訳（メタデータ） (2024-01-09T16:27:28Z)
Gated Linear Attention Transformers with Hardware-Efficient Training [60.670102007737476]
本研究は、並列化性に対してメモリ移動をオフにする線形注意のためのハードウェア効率のアルゴリズムについて述べる。次に、このアルゴリズムを、データ依存ゲートを用いたより表現力豊かな線形アテンションに一般化する。変圧器の標準アテンション層に代えて使用すると、結果として生じるゲート状リニアアテンショントランスが競合的に動作することが分かる。
論文参考訳（メタデータ） (2023-12-11T18:51:59Z)
DeepSpeed Ulysses: System Optimizations for Enabling Training of Extreme Long Sequence Transformer Models [34.74093040678323]
我々は,高度に効率的かつスケーラブルなLDMトレーニングを実現するための,新しい,ポータブルで効果的な方法論であるDeepSpeed-Ulyssesを紹介した。 DeepSpeed-Ulyssesは、そのコアでシーケンス次元に沿って入力データを分割し、効率的なオール・ツー・オールの集合通信を用いて注意を払っている。実験の結果、DeepSpeed-Ulyssesは既存のSOTAベースラインの4倍のシーケンス長で2.5倍高速であることがわかった。
論文参考訳（メタデータ） (2023-09-25T20:15:57Z)
Efficient Long Sequence Modeling via State Space Augmented Transformer [92.74707853711374]
我々はSPADE($underlinetextbfS$tate sunderlinetextbfP$ace)を提案する。我々は,SPADEの底層にSSMを付加し,他の層に対して効率的な局所的注意法を適用した。 Long Range Arenaベンチマークと言語モデリングタスクの実験結果から,提案手法の有効性が示された。
論文参考訳（メタデータ） (2022-12-15T20:51:27Z)
DBA: Efficient Transformer with Dynamic Bilinear Low-Rank Attention [53.02648818164273]
動的双線形低ランク注意(DBA)という,効率的かつ効果的な注意機構を提案する。 DBAは入力感度の動的射影行列によってシーケンス長を圧縮し、線形時間と空間の複雑さを実現する。様々なシーケンス長条件のタスクに対する実験は、DBAが最先端のパフォーマンスを達成することを示す。
論文参考訳（メタデータ） (2022-11-24T03:06:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。