論文の概要: Longer Attention Span: Increasing Transformer Context Length with Sparse Graph Processing Techniques
- arxiv url: http://arxiv.org/abs/2502.01659v2
- Date: Fri, 07 Feb 2025 13:44:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:54:03.934232
- Title: Longer Attention Span: Increasing Transformer Context Length with Sparse Graph Processing Techniques
- Title(参考訳): より長い注意スパン:スパースグラフ処理技術によるトランスフォーマーコンテキスト長の増大
- Authors: Nathaniel Tomczak, Sanmukh Kuppannagari,
- Abstract要約: 本稿では,トークンをグラフのノードとして認識し,注目マスクがグラフのエッジを決定する,注目のグラフコンピューティングビューを提案する。
この観点から,注意機構を実装するグラフ処理アルゴリズムを開発した。
我々のアルゴリズムは1つのNVIDIA A100 GPUで1億6000万の非常に長いシーケンス長を達成できます。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Transformers have demonstrated great success in numerous domains including natural language processing and bioinformatics. This success stems from the use of the attention mechanism by these models in order to represent and propagate pairwise interactions between individual tokens of sequential data. However, the primary limitation of this operation is its quadratic memory and time complexity in relation to the input's context length - the length of a sequence over which the interactions need to be captured. This significantly limits the length of sequences that can be inferred upon by these models. Extensive research has been conducted to reduce the number of pairwise interactions to sub-quadratic in relation to the context length by introducing sparsity into the attention mechanism through the development of sparse attention masks. However, efficient implementations that achieve "true sparsity" are lacking. In this work, we address this issue by proposing a graph computing view of attention where tokens are perceived as nodes of the graph and the attention mask determines the edges of the graph. Using this view, we develop graph processing algorithms to implement the attention mechanism. Both theoretically and empirically, we demonstrate that our algorithms only perform the needed computations, i.e., they are work optimal. We also perform extensive experimentation using popular attention masks to explore the impact of sparsity on execution time and achievable context length. Our experiments demonstrate significant speedups in execution times compared to state-of-the-art attention implementations such as FlashAttention for large sequence lengths. We also demonstrate that our algorithms are able to achieve extremely long sequence lengths of as high as 160 million on a single NVIDIA A100 GPU (SXM4 80GB).
- Abstract(参考訳): トランスフォーマーは自然言語処理やバイオインフォマティクスを含む多くの領域で大きな成功を収めている。
この成功は、シーケンシャルデータの個々のトークン間のペアワイズ相互作用を表現および伝播するために、これらのモデルによる注意機構の使用に起因している。
しかしながら、この操作の最大の制限は、入力のコンテキスト長(相互作用をキャプチャする必要があるシーケンスの長さ)に関連する2次記憶と時間の複雑さである。
これはこれらのモデルによって推測できる列の長さを著しく制限する。
スパース・アテンション・マスクの開発を通じて、注意機構に空間性を導入することにより、コンテキスト長に関連して、サブクワッドラティックに対する対対相互作用の数を減らし、広範囲にわたる研究がなされている。
しかし、「真の疎さ」を実現する効率的な実装は欠落している。
本研究では,トークンがグラフのノードとして認識され,注目マスクがグラフのエッジを決定する,注目のグラフコンピューティングビューを提案することでこの問題に対処する。
この観点から,注意機構を実装するグラフ処理アルゴリズムを開発した。
理論的にも経験的にも、我々のアルゴリズムは必要な計算のみを実行することを実証する。
また,一般の注目マスクを用いた広範囲な実験を行い,実行時間と達成可能なコンテキスト長に及ぼす空間空間の影響について検討した。
提案実験は,FlashAttentionのような,大規模なシーケンス長に対する最先端の注目実装と比較して,実行時間の大幅な高速化を示す。
また,1つのNVIDIA A100 GPU(SXM4 80GB)において,アルゴリズムが最大1億6000万の超長シーケンスを達成可能であることも実証した。
関連論文リスト
- Tree Attention: Topology-aware Decoding for Long-Context Attention on GPU clusters [10.403248386029407]
自己アテンションは、シーケンス長の複雑さのため、重要な計算ボトルネックである。
本研究では、勾配が自己アテンションブロックを計算するスカラーエネルギー関数を導出する。
我々の定式化により,木伐採により,配列軸を横断する還元を効率的に並列に計算できることが判明した。
論文 参考訳(メタデータ) (2024-08-07T21:16:55Z) - Lean Attention: Hardware-Aware Scalable Attention Mechanism for the Decode-Phase of Transformers [4.674454841332859]
トランスフォーマーベースのモデルは、自然言語処理の最も広く使われているアーキテクチャの1つとして登場した。
これらの巨大なモデルはメモリが空腹で、最先端のAIアクセラレータでも大きな推論レイテンシが生じる。
本稿ではトークン生成フェーズの自己認識をスケーラブルに計算する手法であるLeanAttentionを提案する。
論文 参考訳(メタデータ) (2024-05-17T00:52:39Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - Simulation of Graph Algorithms with Looped Transformers [6.0465914748433915]
理論的観点から, グラフ上のアルゴリズムをシミュレートするトランスフォーマーネットワークの能力について検討する。
このアーキテクチャは、Dijkstraの最も短い経路のような個々のアルゴリズムをシミュレートできることを示す。
付加的なアテンションヘッドを利用する場合のチューリング完全度を一定幅で示す。
論文 参考訳(メタデータ) (2024-02-02T02:48:03Z) - Lightning Attention-2: A Free Lunch for Handling Unlimited Sequence
Lengths in Large Language Models [20.78813311569383]
本稿では、線形アテンションによる理論計算の利点を実現するための最初の線形アテンション実装であるLightning Attentionを紹介する。
具体的には、従来のアテンション機構をブロック内に適用し、インターブロックに対して線形アテンションカーネルのトリックを適用する。
異なるモデルサイズとシーケンス長について様々な実験を行った。
論文 参考訳(メタデータ) (2024-01-09T16:27:28Z) - TimeGraphs: Graph-based Temporal Reasoning [64.18083371645956]
TimeGraphsは階層的時間グラフとして動的相互作用を特徴付ける新しいアプローチである。
提案手法は,コンパクトなグラフベース表現を用いて相互作用をモデル化し,多種多様な時間スケールでの適応推論を可能にする。
我々は,サッカーシミュレータ,抵抗ゲーム,MOMA人間活動データセットなど,複雑でダイナミックなエージェントインタラクションを持つ複数のデータセット上でTimeGraphsを評価する。
論文 参考訳(メタデータ) (2024-01-06T06:26:49Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - Graph Conditioned Sparse-Attention for Improved Source Code
Understanding [0.0]
本稿では,スパース自己認識機構の注目マスクとしてグラフ隣接行列を用いて,ソースコードスニペットをグラフのモダリティで条件付けすることを提案する。
提案手法は,コード要約タスクにおけるBLEU, METEOR, ROUGE-Lの計測結果に到達し, 可変誤用タスクにおけるほぼ最先端の精度を示す。
論文 参考訳(メタデータ) (2021-12-01T17:21:55Z) - ABC: Attention with Bounded-memory Control [67.40631793251997]
我々は,有界メモリ制御 (ABC) を1つの抽象概念,すなわち有界メモリ制御 (ABC) に仮定できることを示した。
ABCが新たな可能性を明らかにしました。まずは、他の方法では見分けがつかないような、効率的なアテンションのバリエーションを接続します。
最後に,既存のABCアプローチからインスピレーションを得たABCの新しい事例を紹介する。
論文 参考訳(メタデータ) (2021-10-06T03:53:25Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z) - Fast Graph Attention Networks Using Effective Resistance Based Graph
Sparsification [70.50751397870972]
FastGATは、スペクトルスペーシフィケーションを用いて、注目に基づくGNNを軽量にし、入力グラフの最適プルーニングを生成する手法である。
我々は,ノード分類タスクのための大規模実世界のグラフデータセット上でFastGATを実験的に評価した。
論文 参考訳(メタデータ) (2020-06-15T22:07:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。