Fugu-MT 論文翻訳(概要): Learn from the Past: Fast Sparse Indexing for Large Language Model Decoding

論文の概要: Learn from the Past: Fast Sparse Indexing for Large Language Model Decoding

arxiv url: http://arxiv.org/abs/2506.15704v1
Date: Fri, 30 May 2025 02:35:59 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-29 09:28:14.770601
Title: Learn from the Past: Fast Sparse Indexing for Large Language Model Decoding
Title（参考訳）: 過去から学ぶ:大規模言語モデルデコーディングのための高速スパースインデックス
Authors: Feiyu Yao, Qian Wang,
Abstract要約: 大規模言語モデル(LLM)は、より長いコンテキストをサポートし続ける。復号化時のキーバリューキャッシュのメモリ需要は急速に増大する。スパースアテンション機構は、選択されたキー値対に対してのみ注意重みを計算することでこの問題を軽減する。既存の方法は、各デコードステップを独立したプロセスとして扱うことが多い。本研究では,過去の注目パターンに基づいて,スパースインデックス化候補を動的に構築する高速化手法LFPSを提案する。
参考スコア（独自算出の注目度）: 7.142158555793151
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As large language models (LLMs) continue to support increasingly longer contexts, the memory demand for key-value (KV) caches during decoding grows rapidly, becoming a critical bottleneck in both GPU memory capacity and PCIe bandwidth. Sparse attention mechanisms alleviate this issue by computing attention weights only for selected key-value pairs. However, their indexing computation typically requires traversing all key vectors, resulting in significant computational and data transfer overhead. To reduce the cost of index retrieval, existing methods often treat each decoding step as an independent process, failing to exploit the temporal correlations embedded in historical decoding information. To this end, we propose LFPS(Learn From the Past for Sparse Indexing), an acceleration method that dynamically constructs sparse indexing candidates based on historical attention patterns. LFPS captures two prevalent trends in decoder attention -vertical patterns (attending to fixed positions) and slash patterns (attending to relative positions) -and incorporates a positional expansion strategy to effectively predict the Top-k indices for the current step. We validate LFPS on challenging long-context benchmarks such as LongBench-RULER, using Llama-3.1-8B-Instruct as the base model. Experimental results show that LFPS achieves up to 22.8$\times$ speedup over full attention and 9.6$\times$ speedup over exact Top-k retrieval on an RTX 4090 GPU and a single CPU core of a Xeon Gold 6430, respectively, while preserving generation accuracy. These results demonstrate that LFPS offers a practical and efficient solution for decoding optimization in long-context LLM inference.
Abstract（参考訳）: 大規模言語モデル(LLM)がより長いコンテキストをサポートし続けるにつれ、デコード中のキー値(KV)キャッシュのメモリ需要は急速に増加し、GPUメモリ容量とPCIe帯域幅の両方において重要なボトルネックとなる。スパースアテンション機構は、選択されたキー値対に対してのみ注意重みを計算することでこの問題を軽減する。しかしながら、インデックス計算は通常、すべてのキーベクトルをトラバースする必要があるため、計算とデータ転送のオーバーヘッドが大幅に増大する。インデックス検索のコストを削減するため、既存の手法では、各デコードステップを独立したプロセスとして扱うことが多く、過去のデコード情報に埋め込まれた時間的相関を活用できない。そこで本研究では,過去の注目パターンに基づいて,スパースインデックス候補を動的に構築する高速化手法LFPS(Learn From the Past for Sparse Indexing)を提案する。 LFPSは、デコーダの注意(固定位置への)とスラッシュパターン(相対位置への)の2つの傾向を捉え、現在のステップのTop-k指標を効果的に予測するための位置拡張戦略を取り入れている。 Llama-3.1-8B-Instruct をベースモデルとして,LongBench-RULER などの長文ベンチマークでLFPSを検証する。実験の結果、LFPSはフルアテンションよりも22.8$\times$スピードアップ、RTX 4090 GPUとXeon Gold 6430の単一のCPUコア上のTop-k検索よりも9.6$\times$スピードアップを達成した。これらの結果から、LFPSは長文LLM推論におけるデコード最適化のための実用的で効率的な解であることが示された。

関連論文リスト

Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [58.044803442346115]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおいてブレークスルーを実現するが、推論中に計算の複雑さやメモリオーバーヘッドに悩まされる。 Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークであり、遅延双方向スパースキャッシングを経由するスパースアテンションである。
論文参考訳（メタデータ） (2025-08-04T16:14:03Z)
$\texttt{SPECS}$: Faster Test-Time Scaling through Speculative Drafts [55.231201692232894]
$textttSPECS$は、投機的デコードにインスパイアされた遅延対応のテスト時間スケーリングメソッドである。我々の結果は、$textttSPECS$matchはビームサーチの精度を上回り、最大$sim$19.1%のレイテンシを削減していることを示している。
論文参考訳（メタデータ） (2025-06-15T05:50:05Z)
RetroInfer: A Vector-Storage Approach for Scalable Long-Context LLM Inference [27.69137902678418]
RetroInferは、長文推論を加速するために固有の注意空間を利用する新しいシステムである。 KVキャッシュがCPUメモリに拡張された場合、GPUメモリリミット内では4.5倍のスピードアップと、スムーズなアテンションベースライン上で最大10.5倍のスピードアップを示します。
論文参考訳（メタデータ） (2025-05-05T18:01:17Z)
SparseAccelerate: Efficient Long-Context Inference for Mid-Range GPUs [0.0]
SparseAccelerateは動的スパースアテンション手法であり、入力特性に基づいてその疎度パターンを適応する。実験結果から,SparseAccelerateは最大1.04倍のTTTF遅延を32Kトークンで達成した。
論文参考訳（メタデータ） (2024-12-09T04:27:03Z)
Squeezed Attention: Accelerating Long Context Length LLM Inference [61.787865959140994]
本稿では,入力コンテキストの大部分を固定したアプリケーションを高速化するために,Squeezed Attentionを提案する。推論中、ユーザ入力からのクエリトークンとセントロイドを比較し、固定されたコンテキストからどのキーが意味論的に関連しているかを予測する。また,線形から対数的への注意の複雑さを,固定した文脈長に対して低減できる階層型アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-11-14T18:54:19Z)
POD-Attention: Unlocking Full Prefill-Decode Overlap for Faster LLM Inference [9.164093249308419]
我々は、ハイブリッドバッチの注意を効率的に計算する最初のGPUカーネルであるPOD-Attentionを紹介する。 POD-Attentionは、GPUのリソースを慎重に割り当てることで、計算帯域とメモリ帯域の両方の利用を最大化することを目的としている。
論文参考訳（メタデータ） (2024-10-23T17:06:56Z)
RetrievalAttention: Accelerating Long-Context LLM Inference via Vector Retrieval [24.472784635757016]
RetrievalAttentionは、注意計算を高速化し、GPUメモリ消費を減らすためのトレーニング不要のアプローチである。 RetrievalAttentionは1-3%のデータのみを必要としながら、ほぼ全注意精度を達成できることを示す。
論文参考訳（メタデータ） (2024-09-16T17:59:52Z)
Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。命令符号化では,キャッシュの重要性を評価するために周波数を利用する。様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文参考訳（メタデータ） (2024-07-25T15:29:05Z)
Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文参考訳（メタデータ） (2024-06-24T03:59:17Z)
Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [19.167604927651073]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文参考訳（メタデータ） (2024-05-28T22:19:30Z)
Bifurcated Attention: Accelerating Massively Parallel Decoding with Shared Prefixes in LLMs [39.16152482491236]
Bifurcated attentionは、共有コンテキストバッチデコードシナリオにおける言語モデル推論を強化するために設計された手法である。提案手法は,高バッチサイズおよび拡張コンテキスト長のレイテンシに寄与する重要な要因である冗長メモリIOコストの課題に対処する。
論文参考訳（メタデータ） (2024-03-13T16:30:57Z)
Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2022-12-16T11:15:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。