論文の概要: Taming the Fragility of KV Cache Eviction in LLM Inference
- arxiv url: http://arxiv.org/abs/2510.13334v1
- Date: Wed, 15 Oct 2025 09:18:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.594792
- Title: Taming the Fragility of KV Cache Eviction in LLM Inference
- Title(参考訳): LLM推論におけるKVキャッシュの脆弱性処理
- Authors: Yuan Feng, Haoyu Guo, JunLin Lv, S. Kevin Zhou, Xike Xie,
- Abstract要約: 本稿では,最悪の場合のリスクを抑える2段階の線形時間アプローチを提案する。
本手法は,20%のキャッシュサイズで最強のベースラインに対して,それぞれ2.3xと4.3xの生成品質損失を低減させる。
- 参考スコア(独自算出の注目度): 36.547639886708026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have revolutionized natural language processing, yet their deployment remains hampered by the substantial memory and runtime overhead of the transformer's Key-Value cache. To mitigate this, recent methods employ a scoring-aggregation framework to evict unimportant cache entries, based on the stability assumption-that a fixed subset of entries remains consistently important during generation. However, prior work has largely focused on refining importance indicators for scoring, while defaulting to mean aggregation due to a faithful trust in the stability assumption. In this work, we argue that this underlying assumption is inherently fragile, making mean aggregation highly vulnerable in extreme cases. To counter this, we propose a simple yet elegant defensive aggregation strategy: a two-step, linear-time approach that controls worst-case risk, thereby defending against extreme cases with negligible computational overhead. Embodying this strategy, we propose a novel cache eviction method, DefensiveKV and its extension, Layer-DefensiveKV, which incorporates layer-wise budget allocation. Across seven task domains (18 datasets), our methods reduce generation quality loss by 2.3x and 4.3x respectively, versus the strongest baseline under a 20% cache size. These results set new performance benchmarks and pioneer a promising direction for optimizing cache eviction against underlying fragility through worst-case risk management. Our code is available at https://github.com/FFY0/DefensiveKV.
- Abstract(参考訳): 大規模な言語モデルは自然言語処理に革命をもたらしたが、そのデプロイメントはトランスフォーマーのキーバリューキャッシュのメモリと実行時のオーバーヘッドによって妨げられている。
これを軽減するため、近年の手法では、不安定なキャッシュエントリを排除するためのスコアアグリゲーションフレームワークが採用されている。
しかしながら、以前の研究は、スコアの重要指標を精査することに集中しており、一方で、安定性の前提に対する忠実な信頼のために、デフォルトはアグリゲーションを意味することに重点を置いている。
この研究において、この基礎となる仮定は本質的に脆弱であり、極端な場合において平均的な集約が極めて脆弱である、と論じる。
これに対応するために,2段階の線形時間アプローチで最悪のケースリスクを制御し,計算オーバーヘッドが無視できない極端なケースに対して防御を行うという,シンプルでエレガントな防御戦略を提案する。
この戦略を具現化した新しいキャッシュ消去手法であるDefensiveKVとその拡張であるLayer-DefensiveKVを提案する。
7つのタスクドメイン (18 データセット) にまたがって、我々の手法は、20% のキャッシュサイズで最強のベースラインに対して、生成品質の損失をそれぞれ 2.3x と 4.3x に削減する。
これらの結果は、新たなパフォーマンスベンチマークを設定し、最悪のリスク管理を通じて、基盤となる脆弱性に対してキャッシュの排除を最適化するための有望な方向性を開拓した。
私たちのコードはhttps://github.com/FFY0/DefensiveKV.comで利用可能です。
関連論文リスト
- Judge Q: Trainable Queries for Optimized Information Retention in KV Cache Eviction [53.83828564664595]
大規模言語モデル(LLM)は、キー値(KV)キャッシュを使用して、シーケンス処理中に履歴情報を格納する。
KVキャッシュ消去の現在の方法は、通常、プレフィルフェーズからの最後のウィンドウをクエリとして利用し、消去のためのKV重要度スコアを計算する。
ソフトトークンリストを組み込んだ新しいトレーニング手法であるジャッジQを提案する。
論文 参考訳(メタデータ) (2025-09-13T03:34:12Z) - Shadow in the Cache: Unveiling and Mitigating Privacy Risks of KV-cache in LLM Inference [17.46930265810127]
キーバリュー(KV)キャッシュは、冗長な計算を避けるために中間注意計算(キーとバリューペア)を格納する。
本稿では,攻撃者がKV-cacheから直接センシティブなユーザ入力を再構築できることを実証し,脆弱性の包括的解析を行った。
我々は,新しい,軽量で効率的な防御機構であるKV-Cloakを提案する。
論文 参考訳(メタデータ) (2025-08-13T02:48:25Z) - Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [58.044803442346115]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおいてブレークスルーを実現するが、推論中に計算の複雑さやメモリオーバーヘッドに悩まされる。
Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークであり、遅延双方向スパースキャッシングを経由するスパースアテンションである。
論文 参考訳(メタデータ) (2025-08-04T16:14:03Z) - Improving Black-Box Generative Attacks via Generator Semantic Consistency [51.470649503929344]
ジェネレーティブアタックは テスト時に 1つのフォワードパスで 敵の例を生成する
初期ジェネレータの中間機能をEMA教師に整列させることで意味的整合性を実現する。
我々のアプローチは、ブラックボックス転送の一貫性を保ちながら、既存のジェネレーティブアタックにシームレスに統合することができる。
論文 参考訳(メタデータ) (2025-06-23T02:35:09Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - Ada-KV: Optimizing KV Cache Eviction by Adaptive Budget Allocation for Efficient LLM Inference [19.447729423696096]
大規模言語モデルは様々なドメインで優れていますが、キーバリュー(KV)キャッシュの増加によって効率上の課題に直面しています。
最近の取り組みは、実行中に大量の非クリティカルキャッシュ要素を排除し、KVキャッシュサイズを削減することを目的としている。
本稿では,Ada-KVを提案する。
論文 参考訳(メタデータ) (2024-07-16T09:53:32Z) - On the Efficacy of Eviction Policy for Key-Value Constrained Generative
Language Model Inference [40.789027180025286]
大規模言語モデル(LLM)は、リソース制約のある環境でのデプロイに特に費用がかかる。
本稿では,時間的注意スコアとロバストネス測定に基づく堅牢なキャッシュ省略ポリシーであるRoCoを紹介する。
ユーザフレンドリーなキー値制約付き生成推論専用の汎用ソフトウェアパッケージであるEasyKVをリリースする。
論文 参考訳(メタデータ) (2024-02-09T09:20:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。