Fugu-MT 論文翻訳(概要): HiP Attention: Sparse Sub-Quadratic Attention with Hierarchical Attention Pruning

論文の概要: HiP Attention: Sparse Sub-Quadratic Attention with Hierarchical Attention Pruning

arxiv url: http://arxiv.org/abs/2406.09827v1
Date: Fri, 14 Jun 2024 08:32:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-17 14:34:29.405161
Title: HiP Attention: Sparse Sub-Quadratic Attention with Hierarchical Attention Pruning
Title（参考訳）: HiPアテンション:階層的アテンションプルーニングによるスパースサブクアドラティックアテンション
Authors: Heejun Lee, Geon Park, Youngwan Lee, Jina Kim, Wonyoung Jeong, Myeongjae Jeon, Sung Ju Hwang,
Abstract要約: HiP(Hierarchically Pruned Attention)はトレーニング時間と推論時間の複雑さを同時に$O(T2)$から$O(T2)$に下げる。 HiPはトレーニングなしで、トレーニング済みのアテンションスコアのみを使用して、クエリ毎に上位の$k$の最も重要な要素の位置を検出する。さまざまな実世界のベンチマークの実験では、HiPはプロンプト(例えばプリフィル)とデコード遅延とメモリ使用量を大幅に削減する。
参考スコア（独自算出の注目度）: 47.822285290729496
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: In modern large language models (LLMs), increasing sequence lengths is a crucial challenge for enhancing their comprehension and coherence in handling complex tasks such as multi-modal question answering. However, handling long context sequences with LLMs is prohibitively costly due to the conventional attention mechanism's quadratic time and space complexity, and the context window size is limited by the GPU memory. Although recent works have proposed linear and sparse attention mechanisms to address this issue, their real-world applicability is often limited by the need to re-train pre-trained models. In response, we propose a novel approach, Hierarchically Pruned Attention (HiP), which simultaneously reduces the training and inference time complexity from $O(T^2)$ to $O(T \log T)$ and the space complexity from $O(T^2)$ to $O(T)$. To this end, we devise a dynamic sparse attention mechanism that generates an attention mask through a novel tree-search-like algorithm for a given query on the fly. HiP is training-free as it only utilizes the pre-trained attention scores to spot the positions of the top-$k$ most significant elements for each query. Moreover, it ensures that no token is overlooked, unlike the sliding window-based sub-quadratic attention methods, such as StreamingLLM. Extensive experiments on diverse real-world benchmarks demonstrate that HiP significantly reduces prompt (i.e., prefill) and decoding latency and memory usage while maintaining high generation performance with little or no degradation. As HiP allows pretrained LLMs to scale to millions of tokens on commodity GPUs with no additional engineering due to its easy plug-and-play deployment, we believe that our work will have a large practical impact, opening up the possibility to many long-context LLM applications previously infeasible.
Abstract（参考訳）: 現代の大規模言語モデル(LLM)では、列長の増大は、マルチモーダル質問応答のような複雑なタスクに対する理解と一貫性を高める上で重要な課題である。しかし、従来のアテンション機構の2次時間と空間の複雑さのため、LLMによる長いコンテキストシーケンスの処理は違法にコストがかかり、コンテキストウィンドウサイズはGPUメモリによって制限される。近年の研究では、この問題に対処するための線形かつ疎結合な注意機構が提案されているが、実世界の適用性はしばしば、事前訓練されたモデルを再訓練する必要性によって制限されている。これに対し、HiP(Hierarchically Pruned Attention)という新しいアプローチを提案し、これはトレーニングと推論時間の複雑さを$O(T^2)$から$O(T \log T)$に、空間の複雑さを$O(T^2)$から$O(T)$に同時に減少させる。そこで本研究では,新しい木探索型アルゴリズムを用いて,所定のクエリをオンザフライで生成する動的スパースアテンション機構を考案した。 HiPはトレーニングなしで、トレーニング済みのアテンションスコアのみを使用して、クエリ毎に上位の$k$の最も重要な要素の位置を検出する。さらに、StreamingLLMのようなスライディングウィンドウベースのサブクワッドアテンションメソッドとは異なり、トークンが見落とされないことを保証する。多様な実世界のベンチマークに関する大規模な実験により、HiPは、ほとんどまたは全く劣化することなく高性能を維持しながら、プロンプト(例えばプリフィル)とデコード遅延とメモリ使用量を著しく削減することを示した。 HiPは、プラグインとプレイのデプロイが容易なため、余分なエンジニアリングを伴わないコモディティGPU上で、事前トレーニングされたLLMを数百万のトークンにスケールアップできるようにします。

関連論文リスト

Modality Agnostic Efficient Long Range Encoder [14.705955027331674]
汎用実装を用いた単一デバイス上での長文処理の課題に対処する。これらの制約を克服するために、統一的で効率的なトランスアーキテクチャであるMAELREを提案する。我々は、MAELREが既存の長文モデルと比較して計算コストを低減しつつ、優れた精度を達成できることを実証した。
論文参考訳（メタデータ） (2025-07-25T16:19:47Z)
Saliency-driven Dynamic Token Pruning for Large Language Models [32.903622070917194]
塩分駆動型動的トケンプルーニング(SDTP) 軽量なサリエンシ駆動予測モジュールは、各トークンの重要度をその隠れ状態で推定するように設計されている。ランキングに基づく最適化手法を提案し,評価スコアと予測重要スコアのランキングばらつきを最小化する。
論文参考訳（メタデータ） (2025-04-06T15:15:07Z)
InfiniteHiP: Extending Language Model Context Up to 3 Million Tokens on a Single GPU [48.105361428245736]
大規模言語モデル(LLM)の推論フレームワークであるInfiniteHiPを紹介する。モジュール型階層型トークンプルーニングアルゴリズムにより,無関係なコンテキストトークンを動的に除去する。我々のフレームワークは、追加のトレーニングを必要とせず、100万のトークンコンテキストに対して18.95倍のアテンションデコーディングを実現する。
論文参考訳（メタデータ） (2025-02-13T02:52:01Z)
ZETA: Leveraging Z-order Curves for Efficient Top-k Attention [22.90397380324185]
本稿では,全シーケンスに対する過去のトークンの並列クエリを可能にするZETAを提案する。 ZETA は合成textscMulti-Query Associative Recall タスクにおける標準注意性能と一致する。
論文参考訳（メタデータ） (2025-01-24T15:33:05Z)
RefreshKV: Updating Small KV Cache During Long-form Generation [54.00118604124301]
生成中の入力トークンのサブセットに対して、完全なコンテキストアテンションとアテンションを柔軟に交互に交互に切り替える新しい推論手法RefreshKVを提案する。本手法をオフザシェルフ LLM に適用することにより,様々な長文生成タスクの性能を向上しつつ,エビクションベースの手法に匹敵する高速化を実現する。
論文参考訳（メタデータ） (2024-11-08T18:57:07Z)
HSR-Enhanced Sparse Attention Acceleration [19.776342074253435]
本稿では,Large Language Models (LLM) における注意計算を高速化する新しい手法を提案する。我々は,従来のSoftmaxアテンションとReLUアテンションの両方において,アテンションメカニズム内の固有空間を利用する。提案手法では,ReLUの注意には誤りがなく,Softmaxの注意には誤りがない。
論文参考訳（メタデータ） (2024-10-14T05:18:02Z)
Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文参考訳（メタデータ） (2024-06-24T15:55:59Z)
Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文参考訳（メタデータ） (2024-06-24T03:59:17Z)
Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [19.167604927651073]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文参考訳（メタデータ） (2024-05-28T22:19:30Z)
Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。 HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文参考訳（メタデータ） (2024-04-16T06:34:08Z)
Fast Multipole Attention: A Divide-and-Conquer Attention Mechanism for Long Sequences [1.5484595752241124]
我々は、長さ$n$のシーケンスに対する注意の時間とメモリの複雑さを低減するために、分割・参照戦略を利用する新しい注意機構であるFast Multipole Attentionを提案する。階層的なアプローチは、クエリ、キー、値を$mathcalO(log n)$の解像度レベルにグループ化する。我々は,高速多極変換器がメモリサイズや精度の点で,他の効率的な変換器よりもはるかに優れていることを実証的に見出した。
論文参考訳（メタデータ） (2023-10-18T13:40:41Z)
Efficient Streaming Language Models with Attention Sinks [72.20260088848987]
StreamingLLMは、大規模言語モデルが微調整なしで無限のシーケンス長に一般化できる効率的なフレームワークである。 StreamingLLMはLlama-2, MPT, Falcon, Pythiaを最大400万のトークンで安定かつ効率的な言語モデリングを実現できることを示す。
論文参考訳（メタデータ） (2023-09-29T17:59:56Z)
H$_2$O: Heavy-Hitter Oracle for Efficient Generative Inference of Large Language Models [110.06476624089679]
メモリフットプリントを大幅に削減する新しいKVキャッシュの実装手法を提案する。我々のアプローチは、トークンのごく一部が、注意点の計算において、ほとんどの価値に寄与する、という観察に基づいている。我々は,最近のトークンとH$のバランスを動的に保持するKVキャッシュ消去ポリシーであるヘビーヒッター(H$O)を提案する。
論文参考訳（メタデータ） (2023-06-24T20:11:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。