論文の概要: Learn from the Past: Fast Sparse Indexing for Large Language Model Decoding
- arxiv url: http://arxiv.org/abs/2506.15704v1
- Date: Fri, 30 May 2025 02:35:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-29 09:28:14.770601
- Title: Learn from the Past: Fast Sparse Indexing for Large Language Model Decoding
- Title(参考訳): 過去から学ぶ:大規模言語モデルデコーディングのための高速スパースインデックス
- Authors: Feiyu Yao, Qian Wang,
- Abstract要約: 大規模言語モデル(LLM)は、より長いコンテキストをサポートし続ける。
復号化時のキーバリューキャッシュのメモリ需要は急速に増大する。
スパースアテンション機構は、選択されたキー値対に対してのみ注意重みを計算することでこの問題を軽減する。
既存の方法は、各デコードステップを独立したプロセスとして扱うことが多い。
本研究では,過去の注目パターンに基づいて,スパースインデックス化候補を動的に構築する高速化手法LFPSを提案する。
- 参考スコア(独自算出の注目度): 7.142158555793151
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) continue to support increasingly longer contexts, the memory demand for key-value (KV) caches during decoding grows rapidly, becoming a critical bottleneck in both GPU memory capacity and PCIe bandwidth. Sparse attention mechanisms alleviate this issue by computing attention weights only for selected key-value pairs. However, their indexing computation typically requires traversing all key vectors, resulting in significant computational and data transfer overhead. To reduce the cost of index retrieval, existing methods often treat each decoding step as an independent process, failing to exploit the temporal correlations embedded in historical decoding information. To this end, we propose LFPS(Learn From the Past for Sparse Indexing), an acceleration method that dynamically constructs sparse indexing candidates based on historical attention patterns. LFPS captures two prevalent trends in decoder attention -vertical patterns (attending to fixed positions) and slash patterns (attending to relative positions) -and incorporates a positional expansion strategy to effectively predict the Top-k indices for the current step. We validate LFPS on challenging long-context benchmarks such as LongBench-RULER, using Llama-3.1-8B-Instruct as the base model. Experimental results show that LFPS achieves up to 22.8$\times$ speedup over full attention and 9.6$\times$ speedup over exact Top-k retrieval on an RTX 4090 GPU and a single CPU core of a Xeon Gold 6430, respectively, while preserving generation accuracy. These results demonstrate that LFPS offers a practical and efficient solution for decoding optimization in long-context LLM inference.
- Abstract(参考訳): 大規模言語モデル(LLM)がより長いコンテキストをサポートし続けるにつれ、デコード中のキー値(KV)キャッシュのメモリ需要は急速に増加し、GPUメモリ容量とPCIe帯域幅の両方において重要なボトルネックとなる。
スパースアテンション機構は、選択されたキー値対に対してのみ注意重みを計算することでこの問題を軽減する。
しかしながら、インデックス計算は通常、すべてのキーベクトルをトラバースする必要があるため、計算とデータ転送のオーバーヘッドが大幅に増大する。
インデックス検索のコストを削減するため、既存の手法では、各デコードステップを独立したプロセスとして扱うことが多く、過去のデコード情報に埋め込まれた時間的相関を活用できない。
そこで本研究では,過去の注目パターンに基づいて,スパースインデックス候補を動的に構築する高速化手法LFPS(Learn From the Past for Sparse Indexing)を提案する。
LFPSは、デコーダの注意(固定位置への)とスラッシュパターン(相対位置への)の2つの傾向を捉え、現在のステップのTop-k指標を効果的に予測するための位置拡張戦略を取り入れている。
Llama-3.1-8B-Instruct をベースモデルとして,LongBench-RULER などの長文ベンチマークでLFPSを検証する。
実験の結果、LFPSはフルアテンションよりも22.8$\times$スピードアップ、RTX 4090 GPUとXeon Gold 6430の単一のCPUコア上のTop-k検索よりも9.6$\times$スピードアップを達成した。
これらの結果から、LFPSは長文LLM推論におけるデコード最適化のための実用的で効率的な解であることが示された。
関連論文リスト
- $\texttt{SPECS}$: Faster Test-Time Scaling through Speculative Drafts [55.231201692232894]
$textttSPECS$は、投機的デコードにインスパイアされた遅延対応のテスト時間スケーリングメソッドである。
我々の結果は、$textttSPECS$matchはビームサーチの精度を上回り、最大$sim$19.1%のレイテンシを削減していることを示している。
論文 参考訳(メタデータ) (2025-06-15T05:50:05Z) - RetroInfer: A Vector-Storage Approach for Scalable Long-Context LLM Inference [27.69137902678418]
RetroInferは、長文推論を加速するために固有の注意空間を利用する新しいシステムである。
KVキャッシュがCPUメモリに拡張された場合、GPUメモリリミット内では4.5倍のスピードアップと、スムーズなアテンションベースライン上で最大10.5倍のスピードアップを示します。
論文 参考訳(メタデータ) (2025-05-05T18:01:17Z) - Squeezed Attention: Accelerating Long Context Length LLM Inference [61.787865959140994]
本稿では,入力コンテキストの大部分を固定したアプリケーションを高速化するために,Squeezed Attentionを提案する。
推論中、ユーザ入力からのクエリトークンとセントロイドを比較し、固定されたコンテキストからどのキーが意味論的に関連しているかを予測する。
また,線形から対数的への注意の複雑さを,固定した文脈長に対して低減できる階層型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z) - RetrievalAttention: Accelerating Long-Context LLM Inference via Vector Retrieval [24.472784635757016]
RetrievalAttentionは、注意計算を高速化し、GPUメモリ消費を減らすためのトレーニング不要のアプローチである。
RetrievalAttentionは1-3%のデータのみを必要としながら、ほぼ全注意精度を達成できることを示す。
論文 参考訳(メタデータ) (2024-09-16T17:59:52Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [19.167604927651073]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。