論文の概要: BurstAttention: An Efficient Distributed Attention Framework for Extremely Long Sequences
- arxiv url: http://arxiv.org/abs/2403.09347v1
- Date: Thu, 14 Mar 2024 12:51:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-15 20:37:19.027397
- Title: BurstAttention: An Efficient Distributed Attention Framework for Extremely Long Sequences
- Title(参考訳): BurstAttention: 極端に長いシーケンスのための効率的な分散注意フレームワーク
- Authors: Sun Ao, Weilin Zhao, Xu Han, Cheng Yang, Zhiyuan Liu, Chuan Shi, Maosong Sun, Shengnan Wang, Teng Su,
- Abstract要約: 本稿では,BurstAttention'という分散アテンションフレームワークを提案し,メモリアクセスと通信操作を最適化する。
異なる長さ設定下での実験結果は、BurstAttentionが長いシーケンスを処理する上で大きな利点があることを示している。
- 参考スコア(独自算出の注目度): 89.52560850737663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective attention modules have played a crucial role in the success of Transformer-based large language models (LLMs), but the quadratic time and memory complexities of these attention modules also pose a challenge when processing long sequences. One potential solution for the long sequence problem is to utilize distributed clusters to parallelize the computation of attention modules across multiple devices (e.g., GPUs). However, adopting a distributed approach inevitably introduces extra memory overheads to store local attention results and incurs additional communication costs to aggregate local results into global ones. In this paper, we propose a distributed attention framework named ``BurstAttention'' to optimize memory access and communication operations at both the global cluster and local device levels. In our experiments, we compare BurstAttention with other competitive distributed attention solutions for long sequence processing. The experimental results under different length settings demonstrate that BurstAttention offers significant advantages for processing long sequences compared with these competitive baselines, reducing 40% communication overheads and achieving 2 X speedup during training 32K sequence length on 8 X A100.
- Abstract(参考訳): 効果的なアテンションモジュールはTransformerベースの大規模言語モデル(LLM)の成功に重要な役割を果たしてきたが、これらのアテンションモジュールの二次時間とメモリの複雑さは、長いシーケンスを処理する際にも問題となる。
ロングシーケンス問題の潜在的な解決策の1つは、分散クラスタを使用して、複数のデバイス(GPUなど)にわたるアテンションモジュールの計算を並列化することである。
しかし、分散アプローチを採用すると、必然的に局所的な注意を格納するためのメモリオーバーヘッドが増加し、局所的な結果をグローバルなものに集約するための通信コストが増大する。
本稿では,グローバルクラスタとローカルデバイスレベルでのメモリアクセスと通信操作を最適化する分散アテンションフレームワークである `BurstAttention' を提案する。
実験では,BurstAttentionと他の競合分散アテンション・ソリューションとの比較を行った。
異なる長さ設定下での実験結果から、BurstAttentionは、これらの競合するベースラインと比較して、長いシーケンスを処理する上で大きな利点を示し、通信オーバーヘッドを40%削減し、8 X A100で32Kシーケンスの長さをトレーニング中に2倍のスピードアップを達成する。
関連論文リスト
- Star Attention: Efficient LLM Inference over Long Sequences [17.401430615714]
本稿では,複数のホストに注意を向けることで,計算効率を向上させる2相ブロックスパース近似であるStar Attentionを紹介する。
Star Attentionは、グローバルな注意でトレーニングされたほとんどのTransformerベースのLarge Language Modelとシームレスに統合され、95~100%の精度を維持しながら、メモリ要件と推論時間を最大11倍削減する。
論文 参考訳(メタデータ) (2024-11-26T05:10:04Z) - Squeezed Attention: Accelerating Long Context Length LLM Inference [64.11145320159126]
本稿では,入力プロンプトの大部分を固定したLLMアプリケーションを高速化する機構として,Squeezed Attentionを提案する。
K-meansクラスタリングをオフラインで使用して、セマンティックな類似性に基づいて、固定されたコンテキストのキーをグループ化し、各クラスタを単一のセントロイド値で表現します。
そして、固定された文脈から重要なキーのみを用いて正確な注意を計算し、帯域幅と計算コストを削減する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z) - Correlation-Aware Select and Merge Attention for Efficient Fine-Tuning and Context Length Extension [21.729875191721984]
本稿では,効率的なスパースアテンションを実現するために,相関認識の選択とマージ機構を導入する。
また、位置エンコーディングを含む新しいデータ拡張手法を提案し、不明瞭な位置への一般化を促進する。
提案手法は,コンテキスト長4Mのパスキータスクに対して100%の精度を実現し,コンテクスト長1Mで安定したパープレキシティを維持する。
論文 参考訳(メタデータ) (2024-10-05T15:59:32Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。
提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文 参考訳(メタデータ) (2024-06-12T12:12:38Z) - Bidirectional Long-Range Parser for Sequential Data Understanding [3.76054468268713]
BLRP(Bidirectional Long-Range)は,長距離タスクの性能向上と効率向上を目的とした,新規で汎用的なアテンション機構である。
我々は、最先端の手法に対する競争結果を示すことによって、ビジョンと言語ドメインに対するアプローチの利点と汎用性を示す。
論文 参考訳(メタデータ) (2024-04-08T05:45:03Z) - Bifurcated Attention: Accelerating Massively Parallel Decoding with Shared Prefixes in LLMs [39.16152482491236]
Bifurcated attentionは、共有コンテキストバッチデコードシナリオにおける言語モデル推論を強化するために設計された手法である。
提案手法は,高バッチサイズおよび拡張コンテキスト長のレイテンシに寄与する重要な要因である冗長メモリIOコストの課題に対処する。
論文 参考訳(メタデータ) (2024-03-13T16:30:57Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - Cluster-Former: Clustering-based Sparse Transformer for Long-Range
Dependency Encoding [90.77031668988661]
Cluster-Formerはクラスタリングベースの新しいスパーストランスであり、チャンクされたシーケンスにまたがって注意を向ける。
提案されたフレームワークは、Sliding-Window LayerとCluster-Former Layerの2つのユニークなタイプのTransformer Layerにピボットされている。
実験によると、Cluster-Formerはいくつかの主要なQAベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-09-13T22:09:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。