論文の概要: When Does Value-Aware KV Eviction Help? A Fixed-Contract Diagnostic for Non-Monotone Cache Compression
- arxiv url: http://arxiv.org/abs/2605.08234v1
- Date: Thu, 07 May 2026 00:36:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.48356
- Title: When Does Value-Aware KV Eviction Help? A Fixed-Contract Diagnostic for Non-Monotone Cache Compression
- Title(参考訳): 値認識型KV消去はいつ有効か?非モノトンキャッシュ圧縮のための固定契約診断
- Authors: Ruijie Zhang, Haozhe Liang, Da Chang, Li Hu, Fanqi Kong, Huaxiao Yin, Yu Li,
- Abstract要約: 長文LLM推論は、デコード中に大きなKVキャッシュを読み取る際のメモリと帯域幅のコストによってボトルネックとなる。
KV圧縮は、キャッシュの一部だけを保持することで、このコストを削減するが、タスク精度だけでは、セレクタが成功したり失敗したりする理由を特定できない。
セレクタは3つのステップで失敗する可能性がある: 将来の復号化の必要性の証拠を見逃し、出力に影響を与えないトークンに高いスコアを与えるか、スコアを小さなキャッシュに組み込む際に関連する証拠を壊す。
我々は,セレクタのセットアップを固定し,一度に1つの決定スロットを変更する固定契約診断を導入する。
- 参考スコア(独自算出の注目度): 12.959497604836956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-context LLM inference is bottlenecked by the memory and bandwidth cost of reading large KV caches during decoding. KV compression reduces this cost by keeping only part of the cache, but task accuracy alone does not identify why a selector succeeds or fails. A selector can fail at three steps: it may miss the evidence future decoding needs, give high scores to tokens that do not affect the output, or break related evidence when fitting scores into a small cache. We introduce a fixed-contract diagnostic that holds the selector's setup fixed and changes one decision slot at a time. For value ranking, the probe combines a block's attention mass with the estimated output change from removing it. On LongBench across three models and two budgets, the probe is positive on 72.6% of positive-margin cells and 32.4% of nonpositive-margin cells. NeedleBench M-RT at 32k and a RULER 8k check probe support closure under branched retrieval, and a 264-cell sign evaluation separates support recovery and output-value ranking from leverage effects near the boundary. The resulting order is to recover decode-side evidence, rank its output value, and preserve coupled evidence during projection.
- Abstract(参考訳): 長文LLM推論は、デコード中に大きなKVキャッシュを読み取る際のメモリと帯域幅のコストによってボトルネックとなる。
KV圧縮は、キャッシュの一部だけを保持することで、このコストを削減するが、タスク精度だけでは、セレクタが成功したり失敗したりする理由を特定できない。
セレクタは3つのステップで失敗する可能性がある: 将来の復号化の必要性の証拠を見逃し、出力に影響を与えないトークンに高いスコアを与えるか、スコアを小さなキャッシュに組み込む際に関連する証拠を壊す。
我々は,セレクタのセットアップを一定に保ち,一度に1つの決定スロットを変更する固定契約診断を導入する。
値ランク付けのために、プローブはブロックの注目質量と推定出力変化とを、除去から組み合わせる。
3つのモデルと2つの予算にわたるロングベンチでは、このプローブは72.6%の陽性マージン細胞、32.4%の非陽性マージン細胞に対して陽性である。
32kのNeedleBench M-RTと分岐検索下でのRULER 8kチェックプローブサポートクロージャ、および264セル符号評価により、バウンダリ近傍のレバレッジ効果から、サポート回復と出力値ランキングを分離する。
結果として得られた順序は、デコード側の証拠を回収し、出力値をランク付けし、投影中に結合した証拠を保存することである。
関連論文リスト
- Make Each Token Count: Towards Improving Long-Context Performance with KV Cache Eviction [65.710271475739]
我々は,各トークンの将来のユーティリティを統一メモリ予算の下で学習する,グローバルな保持に基づくKV消去手法を提案する。
提案手法は,フルキャッシュ推論に適合したり,超えたりしながら,KVメモリを大幅に削減することを示す。
これらの結果から,世界規模で校正されたKV消去は圧縮技術であるだけでなく,長文推論を改善するメカニズムでもあることが示唆された。
論文 参考訳(メタデータ) (2026-05-10T16:47:50Z) - When Stored Evidence Stops Being Usable: Scale-Conditioned Evaluation of Agent Memory [4.425240080125479]
本稿では,エビデンス保存型成長下でのエージェントメモリのスケールコンディション評価プロトコルを提案する。
各クエリに対して、タスクエビデンスが固定され、無関係なセッションが追加される。
このプロトコルはエージェントメモリトラジェクトリをログし、4つの診断結果を報告する。
論文 参考訳(メタデータ) (2026-05-08T06:22:31Z) - Echo: KV-Cache-Free Associative Recall with Spectral Koopman Operators [45.88028371034407]
スペクトルクープマン注意(SKA)を中心に構築されたKV-cacheフリー連想リコールアーキテクチャ
我々は、SKA(Spectral Koopman Attention)を中心に構築されたKV-cacheフリーな連想型リコールアーキテクチャであるEchoを紹介する。
論文 参考訳(メタデータ) (2026-05-07T22:26:27Z) - EviMem: Evidence-Gap-Driven Iterative Retrieval for Long-Term Conversational Memory [19.027571478872]
IRIS(Iterative Retrieval via Insufficiency Signals)とLaceMem(Layered Architecture for Conversational Evidence Memory)を組み合わせたEviMemを提案する。
LoCoMoでは、EviMemは、時間(73.3%から81.6%)とマルチホップ(65.9%から85.2%)の質問を4.5倍のレイテンシでMIRIXよりも精度を向上させる。
論文 参考訳(メタデータ) (2026-04-30T10:37:04Z) - WISV: Wireless-Informed Semantic Verification for Distributed Speculative Decoding in Device-Edge LLM Inference [56.297697169678095]
WISV(Wireless-Informed Semantic Verification)は、分散投機的復号化フレームワークである。
WISVは最大60.8%の許容長の増加、37.3%の対話ラウンドの削減、31.4%のエンドツーエンドレイテンシの改善を実現している。
NVIDIA Jetson AGX OrinとA40搭載サーバからなるハードウェアテストベッド上でWISVを検証する。
論文 参考訳(メタデータ) (2026-04-20T01:29:56Z) - Near-Oracle KV Selection via Pre-hoc Sparsity for Long-Context Inference [54.467557491325046]
本稿では,注意スコアの前にKVエントリを選択し,明示的な精度制御を行うプリホックスパシティ(PrHS)を提案する。
PrHSは検索オーバーヘッドを90%以上削減し、HShareよりも3倍高い精度で検索できる。
これはLongBenchの平均劣化率を1%以下に抑え、FLOPを約15%減らし、9.9倍のレイテンシと2.8倍のスループットを得る。
論文 参考訳(メタデータ) (2026-02-09T07:05:23Z) - S$^3$-Attention:Attention-Aligned Endogenous Retrieval for Memory-Bounded Long-Context Inference [11.779449360037518]
S3-Attentionは,長期コンテキスト処理を注目に順応した内因性検索として扱うメモリファースト推論時フレームワークである。
S3-Attentionは、軽量なスパースオートエンコーダを使用して、トランジェントキーとクエリプロジェクションをトップkスパース機能識別子にデコードする。
単一のストリーミングスキャン中にトークンの位置やスパンにCPUベースの逆インデックスマッピング機能を構築する。
論文 参考訳(メタデータ) (2026-01-25T05:25:22Z) - Judge Q: Trainable Queries for Optimized Information Retention in KV Cache Eviction [53.83828564664595]
大規模言語モデル(LLM)は、キー値(KV)キャッシュを使用して、シーケンス処理中に履歴情報を格納する。
KVキャッシュ消去の現在の方法は、通常、プレフィルフェーズからの最後のウィンドウをクエリとして利用し、消去のためのKV重要度スコアを計算する。
ソフトトークンリストを組み込んだ新しいトレーニング手法であるジャッジQを提案する。
論文 参考訳(メタデータ) (2025-09-13T03:34:12Z) - vCache: Verified Semantic Prompt Caching [95.16654660556975]
本稿では,ユーザ定義エラー率保証を備えた最初の検証済みセマンティックキャッシュであるvCacheを提案する。
オンライン学習アルゴリズムを使用して、キャッシュされたプロンプト毎に最適な閾値を推定し、追加のトレーニングなしで信頼性の高いキャッシュ応答を可能にする。
我々の実験によると、vCacheは特定のエラー境界を一貫して満たし、最先端の静的な閾値と微調整された埋め込みベースラインより優れています。
論文 参考訳(メタデータ) (2025-02-06T04:16:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。