論文の概要: HyperAttention: Long-context Attention in Near-Linear Time
- arxiv url: http://arxiv.org/abs/2310.05869v1
- Date: Mon, 9 Oct 2023 17:05:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-10 22:07:49.827362
- Title: HyperAttention: Long-context Attention in Near-Linear Time
- Title(参考訳): HyperAttention: 近距離時間におけるLong-context Attention
- Authors: Insu Han, Rajesh Jarayam, Amin Karbasi, Vahab Mirrokni, David P.
Woodruff, Amir Zandieh
- Abstract要約: 本稿では,長期的文脈の複雑さの増大に伴う計算課題に対処するため,HyperAttentionという近似的な注意機構を提案する。
実証的には、大規模なエントリを特定するためにLocality Sensitive Hashing(LSH)を使用して、HyperAttentionは既存のメソッドよりも優れています。
各種長文長データセットにおけるHyperAttentionの実証的性能を検証した。
- 参考スコア(独自算出の注目度): 75.29865402787028
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We present an approximate attention mechanism named HyperAttention to address
the computational challenges posed by the growing complexity of long contexts
used in Large Language Models (LLMs). Recent work suggests that in the
worst-case scenario, quadratic time is necessary unless the entries of the
attention matrix are bounded or the matrix has low stable rank. We introduce
two parameters which measure: (1) the max column norm in the normalized
attention matrix, and (2) the ratio of row norms in the unnormalized attention
matrix after detecting and removing large entries. We use these fine-grained
parameters to capture the hardness of the problem. Despite previous lower
bounds, we are able to achieve a linear time sampling algorithm even when the
matrix has unbounded entries or a large stable rank, provided the above
parameters are small. HyperAttention features a modular design that easily
accommodates integration of other fast low-level implementations, particularly
FlashAttention. Empirically, employing Locality Sensitive Hashing (LSH) to
identify large entries, HyperAttention outperforms existing methods, giving
significant speed improvements compared to state-of-the-art solutions like
FlashAttention. We validate the empirical performance of HyperAttention on a
variety of different long-context length datasets. For example, HyperAttention
makes the inference time of ChatGLM2 50\% faster on 32k context length while
perplexity increases from 5.6 to 6.3. On larger context length, e.g., 131k,
with causal masking, HyperAttention offers 5-fold speedup on a single attention
layer.
- Abstract(参考訳): 本稿では,Large Language Models (LLMs) における長期文脈の複雑さの増大に伴う計算課題に対処するため,HyperAttention という近似的な注意機構を提案する。
最近の研究は、最悪の場合、注意行列の項目が有界であるか、行列が低い安定階数でない限り、二次時間が必要であることを示唆している。
本研究では,(1)正規化注意行列における最大カラムノルム,(2)大規模エントリの検出・削除後の非正規化注意行列における行ノルムの割合の2つのパラメータを紹介する。
これらの細かいパラメータを使って問題の難しさを捉える。
従来の下界にもかかわらず、行列が非有界なエントリや大きな安定なランクを持つ場合であっても、上記のパラメータが小さい場合であっても線形時間サンプリングアルゴリズムを実現できる。
HyperAttentionは、他の高速な低レベル実装、特にFlashAttentionと簡単に統合できるモジュラーデザインを備えている。
経験的に、大きなエントリを識別するためにlocality sensitive hashing(lsh)を使用することで、hyperattentionは既存のメソッドを上回り、flashattentionのような最先端ソリューションと比べて大幅にスピードが向上する。
様々な長コンテキスト長のデータセットにおけるハイパーアテンションの実証的性能を検証する。
例えば、HyperAttentionは32kコンテキスト長でChatGLM2の推論時間を50%速くし、パープレキシティは5.6から6.3に増加する。
例えば131kのような大きなコンテキスト長では、HyperAttentionは単一の注意層上で5倍のスピードアップを提供する。
関連論文リスト
- Squeezed Attention: Accelerating Long Context Length LLM Inference [64.11145320159126]
本稿では,入力プロンプトの大部分を固定したLLMアプリケーションを高速化する機構として,Squeezed Attentionを提案する。
K-meansクラスタリングをオフラインで使用して、セマンティックな類似性に基づいて、固定されたコンテキストのキーをグループ化し、各クラスタを単一のセントロイド値で表現します。
そして、固定された文脈から重要なキーのみを用いて正確な注意を計算し、帯域幅と計算コストを削減する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z) - SEA: Sparse Linear Attention with Estimated Attention Mask [51.22399593954608]
長い連続性は、注意操作の二次的な複雑さのために問題を引き起こす。
従来の研究は、注意行列をスパース化または線形に近似することで複雑さを低下させることを目的としていた。
推定アテンションマスクを用いたSparse linear attentionを提案する。
論文 参考訳(メタデータ) (2023-10-03T03:56:26Z) - Does Long-Term Series Forecasting Need Complex Attention and Extra Long
Inputs? [21.15722677855935]
トランスフォーマーベースのモデルは、様々な時系列タスクにおいて印象的なパフォーマンスを達成した。
近年、LTSF(Long-Term Series Forecasting)タスクも注目されている。
トランスフォーマーベースの手法を要求される計算複雑性と長いシーケンスのため、LTSFタスクへの適用には2つの大きな問題がある。
論文 参考訳(メタデータ) (2023-06-08T08:37:49Z) - DBA: Efficient Transformer with Dynamic Bilinear Low-Rank Attention [53.02648818164273]
動的双線形低ランク注意(DBA)という,効率的かつ効果的な注意機構を提案する。
DBAは入力感度の動的射影行列によってシーケンス長を圧縮し、線形時間と空間の複雑さを実現する。
様々なシーケンス長条件のタスクに対する実験は、DBAが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2022-11-24T03:06:36Z) - Triformer: Triangular, Variable-Specific Attentions for Long Sequence
Multivariate Time Series Forecasting--Full Version [50.43914511877446]
本稿では,高い効率と精度を確保するために,三角形,可変特性に着目した注意点を提案する。
我々はTriformerが精度と効率の両方で最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2022-04-28T20:41:49Z) - Sketching as a Tool for Understanding and Accelerating Self-attention
for Long Sequences [52.6022911513076]
トランスフォーマーベースのモデルは、自己アテンションモジュールの二次空間と時間的複雑さのために、長いシーケンスを処理するのに効率的ではない。
我々はLinformerとInformerを提案し、低次元投影と行選択により2次複雑性を線形(モジュラー対数因子)に還元する。
理論的解析に基づいて,Skeinformerを提案することにより,自己注意の促進と,自己注意への行列近似の精度の向上を図ることができる。
論文 参考訳(メタデータ) (2021-12-10T06:58:05Z) - EGGS: Eigen-Gap Guided Search Making Subspace Clustering Easy [20.547648917833698]
サブスペースクラスタリングのための固有ギャップ誘導探索法を提案する。
理論的、数値的には、より大きい相対固有ギャップを持つラプラシア行列は、しばしばより高いクラスタリング精度と安定性をもたらすことを示す。
本手法は実アプリケーションにおいて高い柔軟性と利便性を有し,計算コストも低い。
論文 参考訳(メタデータ) (2021-07-23T08:53:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。