論文の概要: Probing the Prompt KV Cache: Where It Becomes Dispensable
- arxiv url: http://arxiv.org/abs/2605.30574v1
- Date: Thu, 28 May 2026 21:07:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 20:56:50.235978
- Title: Probing the Prompt KV Cache: Where It Becomes Dispensable
- Title(参考訳): プロンプトKVキャッシュの証明
- Authors: Vinayshekhar Bannihatti Kumar, Manoj Ghuhan Arivazhagan, Disha Makhija, Rashmi Gangadharaiah,
- Abstract要約: 以前のKVキャッシュ圧縮スキームは、プリミティブキャッシュがデコード、ドロップまたは要約時に部分的に冗長であり、精度の低下が少ないことを実証的に示していた。
どのレイヤ、何個のデコードステップ、どの形式のプロンプトがタスクを壊さずにKVキャッシュに置換できるのか。
制御されたスプライス介入が層切断と復号ステップを乗り越え、この冗長性は内容ではなく形(チャットテンプレートの足場)であることを示す。
- 参考スコア(独自算出の注目度): 9.529147118376464
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Prior KV cache compression schemes empirically demonstrate that the prompt cache is partially redundant during decoding, dropping or summarising entries with little accuracy loss. We ask when and what kind of redundancy: at which layers, after how many decoding steps, and in what form can the prompt span KV cache be replaced without breaking the task. A controlled splice intervention swept over layer cutoff and decoding steps shows this redundancy is about form (chat template scaffolding) rather than content. Replacing the upper layer prompt span KV cache with KV cache from a chat template scaffold whose user content is a neutral filler recovers near clean accuracy, while zeroing the same slots collapses accuracy. The dissociation replicates across the Qwen3, Gemma 3, and Llama 3 families on multiple datasets.
- Abstract(参考訳): 以前のKVキャッシュ圧縮スキームは、プリミティブキャッシュがデコード、ドロップまたは要約時に部分的に冗長であり、精度の低下が少ないことを実証的に示していた。
どのレイヤ、何個のデコードステップ、どの形式のプロンプトがタスクを壊さずにKVキャッシュに置換できるのか。
制御されたスプライス介入が層切断と復号ステップを乗り越え、この冗長性は内容ではなく形(チャットテンプレートの足場)であることを示す。
上層プロンプトをKVキャッシュにKVキャッシュに置き換えることで、ユーザ内容が中立なフィラーであるチャットテンプレートスキャフォールトから、同じスロットをゼロにしながら、ほぼクリーンな精度を回復する。
解離は、複数のデータセット上のQwen3、Gemma 3、Llama 3ファミリーを複製する。
関連論文リスト
- MuKV: Multi-Grained KV Cache Compression for Long Streaming Video Question-Answering [75.0394545769057]
KVキャッシュは、LLMプリフィルを介して歴史的なトークンのキーバリューを格納する。
MuKV は KV キャッシュ圧縮モジュールと半階層的検索手法を特徴とする手法である。
長時間ストリーミングのVideoQAベンチマークの実験では、MKVはメモリとオンラインQA効率を犠牲にすることなく、回答の正確性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2026-05-21T10:13:03Z) - KVReviver: Reversible KV Cache Compression with Sketch-Based Token Reconstruction [20.53279247581787]
スケッチアルゴリズムに基づく可逆的なKVキャッシュ圧縮手法であるKVReviverを提案する。
2kのコンテキストでは、同じエンドツーエンドの推論精度を維持しながら、KVキャッシュの予算の10%しか必要としない。
32kのコンテキストでは、同等または同等の精度の2%の精度の損失を達成する。
論文 参考訳(メタデータ) (2025-12-01T03:59:20Z) - ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [69.57122277845293]
ReCalKVは,キーと値の調整を施した低ランクKVキャッシュ圧縮手法である。
キーズでは、構造的に類似した頭部をグループにクラスタリングし、より正確な低ランク近似を可能にするSimisity aware Recontext (HSR)を提案する。
本稿では,オフラインヘッドワイド値(OVC)を提案する。これはトレーニングなしでキャリブレーションデータを用いて,効率的に値予測行列を校正する。
論文 参考訳(メタデータ) (2025-05-30T08:49:27Z) - KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。
実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。
我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文 参考訳(メタデータ) (2024-10-24T08:06:41Z) - CacheBlend: Fast Large Language Model Serving for RAG with Cached Knowledge Fusion [15.344568214955688]
大規模な言語モデル(LLM)は、必要なコンテキストを提供するために、入力に複数のテキストチャンクを組み込むことが多い。
長いLLM入力のプリフィルを高速化するため、別のLLM入力のプレフィックスとしてコンテキストが再利用された場合、テキストのKVキャッシュをプリコンプリートし、KVキャッシュを再使用することができる。
本稿では,KVキャッシュを高速に組み合わせて,高価なプリフィルと同世代の品質を実現する方法を提案する。
論文 参考訳(メタデータ) (2024-05-26T06:00:17Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z) - CacheGen: KV Cache Compression and Streaming for Fast Large Language Model Serving [31.766738294505767]
CacheGenは、大きな言語モデルのための高速なコンテキストローディングモジュールである。
カスタムテンソルエンコーダを使用して、KVキャッシュをコンパクトなビットストリーム表現にエンコードする。
KVキャッシュの異なる部分の圧縮レベルを適用して、利用可能な帯域幅の変化に対処する。
論文 参考訳(メタデータ) (2023-10-11T07:08:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。