論文の概要: LookaheadKV: Fast and Accurate KV Cache Eviction by Glimpsing into the Future without Generation
- arxiv url: http://arxiv.org/abs/2603.10899v1
- Date: Wed, 11 Mar 2026 15:44:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:33.037327
- Title: LookaheadKV: Fast and Accurate KV Cache Eviction by Glimpsing into the Future without Generation
- Title(参考訳): LookaheadKV:KVキャッシュの高速かつ高精度なキャッシュ定義
- Authors: Jinwoo Ahn, Ingyu Seong, Akhil Kedia, Junhan Kim, Hyemi Jang, Kangwook Lee, Yongkweon Jeon,
- Abstract要約: LookaheadKVは、大規模言語モデルのための軽量な消去フレームワークである。
明確なドラフト生成を必要とせずに、将来の応答をサロゲートする強度を活用する。
放出コストを最大14.5倍に削減し、タイム・ツー・ファースト・トークンを著しく高速化する。
- 参考スコア(独自算出の注目度): 17.367289687206732
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Transformer-based large language models (LLMs) rely on key-value (KV) caching to avoid redundant computation during autoregressive inference. While this mechanism greatly improves efficiency, the cache size grows linearly with the input sequence length, quickly becoming a bottleneck for long-context tasks. Existing solutions mitigate this problem by evicting prompt KV that are deemed unimportant, guided by estimated importance scores. Notably, a recent line of work proposes to improve eviction quality by "glimpsing into the future", in which a draft generator produces a surrogate future response approximating the target model's true response, and this surrogate is subsequently used to estimate the importance of cached KV more accurately. However, these approaches rely on computationally expensive draft generation, which introduces substantial prefilling overhead and limits their practicality in real-world deployment. To address this challenge, we propose LookaheadKV, a lightweight eviction framework that leverages the strength of surrogate future response without requiring explicit draft generation. LookaheadKV augments transformer layers with parameter-efficient modules trained to predict true importance scores with high accuracy. Our design ensures negligible runtime overhead comparable to existing inexpensive heuristics, while achieving accuracy superior to more costly approximation methods. Extensive experiments on long-context understanding benchmarks, across a wide range of models, demonstrate that our method not only outperforms recent competitive baselines in various long-context understanding tasks, but also reduces the eviction cost by up to 14.5x, leading to significantly faster time-to-first-token. Our code is available at https://github.com/SamsungLabs/LookaheadKV.
- Abstract(参考訳): トランスフォーマーベースの大規模言語モデル(LLM)は、自己回帰推論中に冗長な計算を避けるためにキー値(KV)キャッシュに依存している。
この機構は効率を大幅に向上するが、キャッシュサイズは入力シーケンスの長さとともに線形に成長し、長いコンテキストタスクのボトルネックとなる。
既存のソリューションは、推定重要度スコアによって導かれる重要でないと考えられるプロンプトKVを排除することで、この問題を軽減する。
特に、近年の研究では、ターゲットモデルの真の応答を近似するサロゲートをドラフトジェネレータが生成し、このサロゲートを用いてキャッシュされたKVの重要度をより正確に見積もる「未来への飛び込み」により、エビクション品質を改善することが提案されている。
しかし、これらのアプローチは計算に費用がかかるドラフト生成に依存しており、現実のデプロイメントにおけるオーバーヘッドをかなり満たし、実用性を制限している。
この課題に対処するために、我々は、明確なドラフト生成を必要とせずに、将来の応答をサロゲートする強みを活用する軽量な消去フレームワークであるLookaheadKVを提案する。
LookaheadKVは、パラメータ効率のよいモジュールでトランスフォーマー層を拡張し、真に重要なスコアを高精度に予測する。
我々の設計では、既存の安価なヒューリスティックに匹敵する無視可能なランタイムオーバーヘッドを確保しつつ、よりコストのかかる近似手法よりも精度を向上する。
本手法は,様々な長文理解タスクにおいて,近年の競争ベースラインを上回るだけでなく,最大14.5倍のコスト削減を実現し,タイム・ツー・ファースト・トークンの大幅な高速化を実現している。
私たちのコードはhttps://github.com/SamsungLabs/LookaheadKV.comから入手可能です。
関連論文リスト
- Learning to Evict from Key-Value Cache [17.365511268829703]
我々はKV Policyを紹介した。KV Policyはトークンのランク付けを学習するためのフレームワークであり、将来的な復号化に役立つと予測されている。
長文ベンチマークRULERとマルチターンダイアログベンチマークOASST2-4kの2種類のモデルファミリで評価した。
その結果、将来のトークンユーティリティを予測する学習は、適応的なKVキャッシュ管理のための強力でスケーラブルなパラダイムであることが示されている。
論文 参考訳(メタデータ) (2026-02-10T19:34:15Z) - Predicting Future Utility: Global Combinatorial Optimization for Task-Agnostic KV Cache Eviction [19.14455067106419]
現在のKVキャッシュ消去法は、すべての頭において重要な指標としてスコアが一貫したプロキシであることを暗黙的に仮定して、瞬時メトリクスに依存している。
本稿では,長期的セマンティック情報を保存する上で,最適予算配分は限界効用によって管理されるべきであることを示す。
LU-KVの実践的展開を容易にするために,データ駆動型オフラインプロファイリングプロトコルを実装した。
論文 参考訳(メタデータ) (2026-02-09T12:23:38Z) - ForesightKV: Optimizing KV Cache Eviction for Reasoning Models by Learning Long-Term Contribution [84.41751286055909]
我々は、長文世代におけるどのKVペアを退避させるかを予測する訓練ベースのKVキャッシュ消去フレームワークを開発した。
我々は、マルコフ決定過程としてキャッシュ消去を定式化し、GRPOアルゴリズムを適用し、低エントロピートークンにおける言語モデリング損失の増加を緩和する。
論文 参考訳(メタデータ) (2026-02-03T07:16:51Z) - Fast KVzip: Efficient and Accurate LLM Inference with Gated KV Eviction [50.99402504483692]
凍結重み付き言語モデルのための新しいゲーティングベースのKVキャッシュ消去手法を提案する。
私たちのアプローチは、プリフィルとデコードの両方の段階にシームレスに統合されます。
実験の結果,KVキャッシュの最大70%を除去しながら,ほぼ無作為な性能を維持していることがわかった。
論文 参考訳(メタデータ) (2026-01-25T03:07:54Z) - Training-free Context-adaptive Attention for Efficient Long Context Modeling [57.703159205740185]
トレーニングフリーコンテキスト適応注意(TCA-Attention)は、学習不要なスパースアテンション機構であり、効率的な長文推論のための情報トークンのみに選択的に参画する。
TCA-Attentionは2.8$times$のスピードアップを実現し、128Kのコンテキスト長でKVキャッシュを61%削減し、フルアテンションに匹敵するパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-12-10T01:54:57Z) - Judge Q: Trainable Queries for Optimized Information Retention in KV Cache Eviction [53.83828564664595]
大規模言語モデル(LLM)は、キー値(KV)キャッシュを使用して、シーケンス処理中に履歴情報を格納する。
KVキャッシュ消去の現在の方法は、通常、プレフィルフェーズからの最後のウィンドウをクエリとして利用し、消去のためのKV重要度スコアを計算する。
ソフトトークンリストを組み込んだ新しいトレーニング手法であるジャッジQを提案する。
論文 参考訳(メタデータ) (2025-09-13T03:34:12Z) - Log-Augmented Generation: Scaling Test-Time Reasoning with Reusable Computation [80.69067017594709]
大規模言語モデル(LLM)とそのエージェントモデルは、以前のタスクからの推論を維持するのに苦労する。
本稿では,従来の計算を直接再利用し,テスト時に過去のログから推論する新しいフレームワークであるLAGを提案する。
本手法は,ログを使用しない標準的なエージェントシステムよりも優れている。
論文 参考訳(メタデータ) (2025-05-20T14:14:38Z) - Dialogue Without Limits: Constant-Sized KV Caches for Extended Responses in LLMs [6.222287867011644]
精度を保ちながら一定サイズのKVキャッシュを維持する推論時間手法であるMorphKVを提案する。
保持や損失圧縮とは異なり、MorphKVは最近のトークンの注意パターンによってガイドされる軽量更新を通じてKVキャッシュを反復的に洗練する。
我々の研究では、52.9$%のメモリセーブと18.2$%の精度が、最先端の先行研究と比較して高いことを示している。
論文 参考訳(メタデータ) (2025-03-02T18:12:50Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。