論文の概要: ProphetKV: User-Query-Driven Selective Recomputation for Efficient KV Cache Reuse in Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2602.02579v3
- Date: Thu, 05 Feb 2026 03:13:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 14:11:23.853742
- Title: ProphetKV: User-Query-Driven Selective Recomputation for Efficient KV Cache Reuse in Retrieval-Augmented Generation
- Title(参考訳): ProphetKV: 検索拡張生成における効率的なKVキャッシュ再利用のためのユーザクエリ駆動選択再計算
- Authors: Shihao Wang, Jiahao Chen, Yanqi Pan, Hao Huang, Yichen Hao, Xiangyu Zou, Wen Xia, Wentao Zhang, Chongyang Qiu, Pengfei Wang,
- Abstract要約: 本稿では,RAGシナリオに対するユーザクエリ駆動型KVキャッシュ再利用手法であるProphet KVを提案する。
Prophet KVは、ユーザクエリに対するセマンティックな関連性に基づいてトークンを優先順位付けする。
以上の結果から, Prophet KVの完全補充精度は96%-101%であり,再計算率は20%に過ぎなかった。
- 参考スコア(独自算出の注目度): 22.835149054167122
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The prefill stage of long-context Retrieval-Augmented Generation (RAG) is severely bottlenecked by computational overhead. To mitigate this, recent methods assemble pre-calculated KV caches of retrieved RAG documents (by a user query) and reprocess selected tokens to recover cross-attention between these pre-calculated KV caches. However, we identify a fundamental "crowding-out effect" in current token selection criteria: globally salient but user-query-irrelevant tokens saturate the limited recomputation budget, displacing the tokens truly essential for answering the user query and degrading inference accuracy. We propose ProphetKV, a user-query-driven KV Cache reuse method for RAG scenarios. ProphetKV dynamically prioritizes tokens based on their semantic relevance to the user query and employs a dual-stage recomputation pipeline to fuse layer-wise attention metrics into a high-utility set. By ensuring the recomputation budget is dedicated to bridging the informational gap between retrieved context and the user query, ProphetKV achieves high-fidelity attention recovery with minimal overhead. Our extensive evaluation results show that ProphetKV retains 96%-101% of full-prefill accuracy with only a 20% recomputation ratio, while achieving accuracy improvements of 8.8%-24.9% on RULER and 18.6%-50.9% on LongBench over the state-of-the-art approaches (e.g., CacheBlend, EPIC, and KVShare).
- Abstract(参考訳): 長文検索拡張生成(RAG)のプリフィルステージは、計算オーバーヘッドによって著しくボトルネックとなる。
これを軽減するため、最近の手法では、検索したRAG文書のKVキャッシュを(ユーザクエリによって)組み立て、選択したトークンを再処理し、これらのプリ計算されたKVキャッシュ間のクロスアテンションを回復する。
しかしながら、現在のトークン選択基準における基本的な「クローズアウト効果」を識別する: グローバルに順応するが、ユーザクエリ非関連トークンは制限された再計算予算を飽和させ、ユーザクエリに応答し、推論精度を低下させるのに本当に不可欠なトークンを分解する。
本稿では,RAGシナリオに対するユーザクエリ駆動型KVキャッシュ再利用手法であるProphetKVを提案する。
ProphetKVは、ユーザクエリに対するセマンティックな関連性に基づいてトークンを動的に優先順位付けし、二重ステージ再計算パイプラインを使用して、レイヤワイドアテンションメトリクスを高ユーティリティセットに融合する。
ProphetKVは、検索したコンテキストとユーザクエリ間の情報ギャップを埋めるために、再計算予算を確実にすることで、最小限のオーバーヘッドで高忠実な注意回復を実現する。
以上の結果から,RULERでは8.8%-24.9%,最先端アプローチ(CacheBlend,EPIC,KVShareなど)では18.6%-50.9%,RULERでは8.8%-24.9%,LongBenchでは18.6%-50.9%であった。
関連論文リスト
- KVReviver: Reversible KV Cache Compression with Sketch-Based Token Reconstruction [20.53279247581787]
スケッチアルゴリズムに基づく可逆的なKVキャッシュ圧縮手法であるKVReviverを提案する。
2kのコンテキストでは、同じエンドツーエンドの推論精度を維持しながら、KVキャッシュの予算の10%しか必要としない。
32kのコンテキストでは、同等または同等の精度の2%の精度の損失を達成する。
論文 参考訳(メタデータ) (2025-12-01T03:59:20Z) - Value-Guided KV Compression for LLMs via Approximated CUR Decomposition [24.262712463465665]
CurDKVは、CUR行列分解から計算したレバレッジスコアに基づいてキーと値を選択する、新しい、値中心のKV圧縮手法である。
我々のアプローチは、注意出力$softmax(QKT)V$の支配的部分空間を近似し、保持されたトークンがモデルの予測挙動を最善に維持することを保証する。
論文 参考訳(メタデータ) (2025-09-18T15:04:06Z) - Judge Q: Trainable Queries for Optimized Information Retention in KV Cache Eviction [53.83828564664595]
大規模言語モデル(LLM)は、キー値(KV)キャッシュを使用して、シーケンス処理中に履歴情報を格納する。
KVキャッシュ消去の現在の方法は、通常、プレフィルフェーズからの最後のウィンドウをクエリとして利用し、消去のためのKV重要度スコアを計算する。
ソフトトークンリストを組み込んだ新しいトレーニング手法であるジャッジQを提案する。
論文 参考訳(メタデータ) (2025-09-13T03:34:12Z) - Sparse Attention across Multiple-context KV Cache [8.236266965773465]
推論効率を改善するために、履歴キーバリュー(KV)キャッシュを再利用することは、主流のアプローチとなっている。
近年の進歩は、KVキャッシュを選択できるスパースアテンション機構によってスループットをさらに向上させる。
本論文では,マルチコンテキストKVキャッシュにおける注意スペーシフィケーションの最初の調査であるSamKVについて述べる。
論文 参考訳(メタデータ) (2025-08-06T02:53:14Z) - Cache Me If You Can: How Many KVs Do You Need for Effective Long-Context LMs? [79.58770714228983]
言語モデルは、書籍要約のようなタスクに対して、ますます長いコンテキストを扱う。
これによりキーバリュー(KV)キャッシュのメモリコストが増大する。
以前の多くの研究でKVをメモリから外す方法が提案されているが、そのアプローチは好ましい設定に適合している。
KVフットプリント*は、記憶中のKVエントリの量と寿命の両方を考慮し、統一された計量として提案する。
論文 参考訳(メタデータ) (2025-06-20T16:21:12Z) - Activation-aware Probe-Query: Effective Key-Value Retrieval for Long-Context LLMs Inference [56.71209737306054]
我々は,プローブ-textbfQuery を動的に決定し,関連する textbfKV ペアを推論するために利用する,トレーニングフリーの textbfActivation-aware アプローチである textbfActQKV を提案する。
Long-Bench と $infty$ Benchmarks の実験では、競合する推論品質とリソース効率を備えた最先端のパフォーマンスが実証されている。
論文 参考訳(メタデータ) (2025-02-19T08:50:44Z) - A$^2$ATS: Retrieval-Based KV Cache Reduction via Windowed Rotary Position Embedding and Query-Aware Vector Quantization [17.342214950859145]
ロングコンテキストの大規模言語モデル(LLM)は、メモリフットプリントが大きく、KVキャッシュのアクセスオーバーヘッドが大きいため、効率的なサービスを実現する上で大きな課題となる。
検索ベースのKVキャッシュ削減手法は、一般的に完全なKVキャッシュをCPUにオフロードし、推論時に必要なトークンを取得することで、これらの課題を軽減することができる。
本稿では,新しい検索方式KVキャッシュ削減手法であるA$2$ATSを提案する。
論文 参考訳(メタデータ) (2025-02-18T09:11:51Z) - More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression [71.42818367729573]
大規模言語モデル(LLM)では、KVキャッシュのメモリ使用量は推論において重大なボトルネックとなっている。
KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法を別々に扱う。
本稿では,KVキャッシュ圧縮におけるトークン精度トレードオフを包括的に検討する。
論文 参考訳(メタデータ) (2024-12-17T09:20:31Z) - PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [97.41972925670508]
大規模視覚言語モデル(LVLM)は、推論中に重要な計算とメモリオーバーヘッドを引き起こす。
ここでは、PrefixKVについて述べる。ここでは、Prefixは、元のシーケンスの位置ではなく、重要度に基づいて、上位ランクのKVを意味する。
本手法は他の手法と比較して最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-12-04T15:48:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。