論文の概要: HiP Attention: Sparse Sub-Quadratic Attention with Hierarchical Attention Pruning
- arxiv url: http://arxiv.org/abs/2406.09827v1
- Date: Fri, 14 Jun 2024 08:32:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 14:34:29.405161
- Title: HiP Attention: Sparse Sub-Quadratic Attention with Hierarchical Attention Pruning
- Title(参考訳): HiPアテンション:階層的アテンションプルーニングによるスパースサブクアドラティックアテンション
- Authors: Heejun Lee, Geon Park, Youngwan Lee, Jina Kim, Wonyoung Jeong, Myeongjae Jeon, Sung Ju Hwang,
- Abstract要約: HiP(Hierarchically Pruned Attention)はトレーニング時間と推論時間の複雑さを同時に$O(T2)$から$O(T2)$に下げる。
HiPはトレーニングなしで、トレーニング済みのアテンションスコアのみを使用して、クエリ毎に上位の$k$の最も重要な要素の位置を検出する。
さまざまな実世界のベンチマークの実験では、HiPはプロンプト(例えばプリフィル)とデコード遅延とメモリ使用量を大幅に削減する。
- 参考スコア(独自算出の注目度): 47.822285290729496
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In modern large language models (LLMs), increasing sequence lengths is a crucial challenge for enhancing their comprehension and coherence in handling complex tasks such as multi-modal question answering. However, handling long context sequences with LLMs is prohibitively costly due to the conventional attention mechanism's quadratic time and space complexity, and the context window size is limited by the GPU memory. Although recent works have proposed linear and sparse attention mechanisms to address this issue, their real-world applicability is often limited by the need to re-train pre-trained models. In response, we propose a novel approach, Hierarchically Pruned Attention (HiP), which simultaneously reduces the training and inference time complexity from $O(T^2)$ to $O(T \log T)$ and the space complexity from $O(T^2)$ to $O(T)$. To this end, we devise a dynamic sparse attention mechanism that generates an attention mask through a novel tree-search-like algorithm for a given query on the fly. HiP is training-free as it only utilizes the pre-trained attention scores to spot the positions of the top-$k$ most significant elements for each query. Moreover, it ensures that no token is overlooked, unlike the sliding window-based sub-quadratic attention methods, such as StreamingLLM. Extensive experiments on diverse real-world benchmarks demonstrate that HiP significantly reduces prompt (i.e., prefill) and decoding latency and memory usage while maintaining high generation performance with little or no degradation. As HiP allows pretrained LLMs to scale to millions of tokens on commodity GPUs with no additional engineering due to its easy plug-and-play deployment, we believe that our work will have a large practical impact, opening up the possibility to many long-context LLM applications previously infeasible.
- Abstract(参考訳): 現代の大規模言語モデル(LLM)では、列長の増大は、マルチモーダル質問応答のような複雑なタスクに対する理解と一貫性を高める上で重要な課題である。
しかし、従来のアテンション機構の2次時間と空間の複雑さのため、LLMによる長いコンテキストシーケンスの処理は違法にコストがかかり、コンテキストウィンドウサイズはGPUメモリによって制限される。
近年の研究では、この問題に対処するための線形かつ疎結合な注意機構が提案されているが、実世界の適用性はしばしば、事前訓練されたモデルを再訓練する必要性によって制限されている。
これに対し、HiP(Hierarchically Pruned Attention)という新しいアプローチを提案し、これはトレーニングと推論時間の複雑さを$O(T^2)$から$O(T \log T)$に、空間の複雑さを$O(T^2)$から$O(T)$に同時に減少させる。
そこで本研究では,新しい木探索型アルゴリズムを用いて,所定のクエリをオンザフライで生成する動的スパースアテンション機構を考案した。
HiPはトレーニングなしで、トレーニング済みのアテンションスコアのみを使用して、クエリ毎に上位の$k$の最も重要な要素の位置を検出する。
さらに、StreamingLLMのようなスライディングウィンドウベースのサブクワッドアテンションメソッドとは異なり、トークンが見落とされないことを保証する。
多様な実世界のベンチマークに関する大規模な実験により、HiPは、ほとんどまたは全く劣化することなく高性能を維持しながら、プロンプト(例えばプリフィル)とデコード遅延とメモリ使用量を著しく削減することを示した。
HiPは、プラグインとプレイのデプロイが容易なため、余分なエンジニアリングを伴わないコモディティGPU上で、事前トレーニングされたLLMを数百万のトークンにスケールアップできるようにします。
関連論文リスト
- HSR-Enhanced Sparse Attention Acceleration [19.776342074253435]
本稿では,Large Language Models (LLM) における注意計算を高速化する新しい手法を提案する。
我々は,従来のSoftmaxアテンションとReLUアテンションの両方において,アテンションメカニズム内の固有空間を利用する。
提案手法では,ReLUの注意には誤りがなく,Softmaxの注意には誤りがない。
論文 参考訳(メタデータ) (2024-10-14T05:18:02Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [19.167604927651073]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。
HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。
トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文 参考訳(メタデータ) (2024-04-16T06:34:08Z) - Fast Multipole Attention: A Divide-and-Conquer Attention Mechanism for Long Sequences [1.5484595752241124]
我々は、長さ$n$のシーケンスに対する注意の時間とメモリの複雑さを低減するために、分割・参照戦略を利用する新しい注意機構であるFast Multipole Attentionを提案する。
階層的なアプローチは、クエリ、キー、値を$mathcalO(log n)$の解像度レベルにグループ化する。
我々は,高速多極変換器がメモリサイズや精度の点で,他の効率的な変換器よりもはるかに優れていることを実証的に見出した。
論文 参考訳(メタデータ) (2023-10-18T13:40:41Z) - Efficient Streaming Language Models with Attention Sinks [72.20260088848987]
StreamingLLMは、大規模言語モデルが微調整なしで無限のシーケンス長に一般化できる効率的なフレームワークである。
StreamingLLMはLlama-2, MPT, Falcon, Pythiaを最大400万のトークンで安定かつ効率的な言語モデリングを実現できることを示す。
論文 参考訳(メタデータ) (2023-09-29T17:59:56Z) - H$_2$O: Heavy-Hitter Oracle for Efficient Generative Inference of Large
Language Models [110.06476624089679]
メモリフットプリントを大幅に削減する新しいKVキャッシュの実装手法を提案する。
我々のアプローチは、トークンのごく一部が、注意点の計算において、ほとんどの価値に寄与する、という観察に基づいている。
我々は,最近のトークンとH$のバランスを動的に保持するKVキャッシュ消去ポリシーであるヘビーヒッター(H$O)を提案する。
論文 参考訳(メタデータ) (2023-06-24T20:11:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。