論文の概要: Tree Attention: Topology-aware Decoding for Long-Context Attention on GPU clusters
- arxiv url: http://arxiv.org/abs/2408.04093v3
- Date: Wed, 14 Aug 2024 12:47:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-15 15:18:29.484225
- Title: Tree Attention: Topology-aware Decoding for Long-Context Attention on GPU clusters
- Title(参考訳): トリーアテンション:GPUクラスタ上での長期アテンションのためのトポロジ対応デコーディング
- Authors: Vasudev Shyam, Jonathan Pilault, Emily Shepperd, Quentin Anthony, Beren Millidge,
- Abstract要約: 自己アテンションは、シーケンス長の複雑さのため、重要な計算ボトルネックである。
本研究では、勾配が自己アテンションブロックを計算するスカラーエネルギー関数を導出する。
我々の定式化により,木伐採により,配列軸を横断する還元を効率的に並列に計算できることが判明した。
- 参考スコア(独自算出の注目度): 10.403248386029407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-attention is the core mathematical operation of modern transformer architectures and is also a significant computational bottleneck due to its quadratic complexity in the sequence length. In this work, we derive the scalar energy function whose gradient computes the self-attention block, thus elucidating the theoretical underpinnings of self-attention, providing a Bayesian interpretation of the operation and linking it closely with energy-based models such as Hopfield Networks. Our formulation reveals that the reduction across the sequence axis can be efficiently computed in parallel through a tree reduction. Our algorithm, for parallelizing attention computation across multiple GPUs enables cross-device decoding to be performed asymptotically faster (up to 8x faster in our experiments) than alternative approaches such as Ring Attention, while also requiring significantly less communication volume and incurring 2x less peak memory. Our code is publicly available here: \url{https://github.com/Zyphra/tree_attention}.
- Abstract(参考訳): 自己注意(Self-attention)は、現代のトランスフォーマーアーキテクチャの中核的な数学的操作であり、シーケンス長の2次複雑さのため、重要な計算ボトルネックでもある。
本研究では、勾配が自己アテンションブロックを計算するスカラーエネルギー関数を導出し、したがって自己アテンションの理論的基盤を解明し、その操作のベイズ的解釈を提供し、ホップフィールドネットワークのようなエネルギーベースモデルと密接に関連付ける。
我々の定式化により,木伐採により,配列軸を横断する還元を効率的に並列に計算できることが判明した。
複数のGPU間でのアテンション計算を並列化するアルゴリズムにより、Ring Attentionのような代替手法よりもデバイス間デコーディングを漸近的に(実験では最大8倍)高速に行うことができ、通信量も大幅に少なくなり、ピークメモリも2倍少ない。
私たちのコードは、以下に公開されています。
関連論文リスト
- Lean Attention: Hardware-Aware Scalable Attention Mechanism for the Decode-Phase of Transformers [4.674454841332859]
トランスフォーマーベースのモデルは、自然言語処理の最も広く使われているアーキテクチャの1つとして登場した。
これらの巨大なモデルはメモリが空腹で、最先端のAIアクセラレータでも大きな推論レイテンシが生じる。
本稿ではトークン生成フェーズの自己認識をスケーラブルに計算する手法であるLeanAttentionを提案する。
論文 参考訳(メタデータ) (2024-05-17T00:52:39Z) - Simulation of Graph Algorithms with Looped Transformers [6.0465914748433915]
理論的観点から, グラフ上のアルゴリズムをシミュレートするトランスフォーマーネットワークの能力について検討する。
このアーキテクチャは、Dijkstraの最も短い経路のような個々のアルゴリズムをシミュレートできることを示す。
付加的なアテンションヘッドを利用する場合のチューリング完全度を一定幅で示す。
論文 参考訳(メタデータ) (2024-02-02T02:48:03Z) - Lightning Attention-2: A Free Lunch for Handling Unlimited Sequence
Lengths in Large Language Models [20.78813311569383]
本稿では、線形アテンションによる理論計算の利点を実現するための最初の線形アテンション実装であるLightning Attentionを紹介する。
具体的には、従来のアテンション機構をブロック内に適用し、インターブロックに対して線形アテンションカーネルのトリックを適用する。
異なるモデルサイズとシーケンス長について様々な実験を行った。
論文 参考訳(メタデータ) (2024-01-09T16:27:28Z) - Memory-aware Scheduling for Complex Wired Networks with Iterative Graph
Optimization [4.614780125575351]
本稿では,反復グラフ最適化に基づく効率的なメモリ認識スケジューリングフレームワークを提案する。
我々のフレームワークは、スケジューリングの最適性を保ちながらグラフを単純化する反復グラフ融合アルゴリズムを備えている。
論文 参考訳(メタデータ) (2023-08-26T14:52:02Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - Treeformer: Dense Gradient Trees for Efficient Attention Computation [24.045251327736814]
カーネルを用いて注目度、低ランク、近似などの異なる注意構造を強制することにより、注意計算を高速化する方法を示す。
このような階層的なナビゲーションに基づいて、TF-AttentionとTC-Attentionという2つの効率的な注意層のうちの1つを使用できるTreeformerを設計する。
注意層に30倍少ないFLOPを使用しながら,私たちのTreeformerアーキテクチャはベースライントランスフォーマーとほぼ同等の精度で動作可能であることを実証した。
論文 参考訳(メタデータ) (2022-08-18T18:31:40Z) - A Unified Framework for Implicit Sinkhorn Differentiation [58.56866763433335]
暗黙の微分によってシンクホーン層の解析勾配を求めるアルゴリズムを提案する。
特にGPUメモリなどのリソースが不足している場合には,計算効率が向上する。
論文 参考訳(メタデータ) (2022-05-13T14:45:31Z) - Instant Neural Graphics Primitives with a Multiresolution Hash Encoding [67.33850633281803]
品質を犠牲にすることなく、より小さなネットワークを使用できる汎用的な新しい入力符号化を提案する。
小さなニューラルネットワークは、勾配降下によって値が最適化された訓練可能な特徴ベクトルの多分解能ハッシュテーブルによって拡張される。
数桁の高速化を実現し、高品質なニューラルネットワークプリミティブを数秒でトレーニングすることができる。
論文 参考訳(メタデータ) (2022-01-16T07:22:47Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z) - VersaGNN: a Versatile accelerator for Graph neural networks [81.1667080640009]
我々は,超効率的なサイストリックアレイベースの多用途ハードウェアアクセラレータである textitVersaGNN を提案する。
textitVersaGNNは平均3712$times$ speedup with 1301.25$times$ energy reduction on CPU、35.4$times$ speedup with 17.66$times$ energy reduction on GPUを達成している。
論文 参考訳(メタデータ) (2021-05-04T04:10:48Z) - Fast Graph Attention Networks Using Effective Resistance Based Graph
Sparsification [70.50751397870972]
FastGATは、スペクトルスペーシフィケーションを用いて、注目に基づくGNNを軽量にし、入力グラフの最適プルーニングを生成する手法である。
我々は,ノード分類タスクのための大規模実世界のグラフデータセット上でFastGATを実験的に評価した。
論文 参考訳(メタデータ) (2020-06-15T22:07:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。