論文の概要: Shadow in the Cache: Unveiling and Mitigating Privacy Risks of KV-cache in LLM Inference
- arxiv url: http://arxiv.org/abs/2508.09442v1
- Date: Wed, 13 Aug 2025 02:48:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.729129
- Title: Shadow in the Cache: Unveiling and Mitigating Privacy Risks of KV-cache in LLM Inference
- Title(参考訳): キャッシュのシャドウ: LLM推論におけるKVキャッシュのプライバシーリスクの解明と軽減
- Authors: Zhifan Luo, Shuo Shao, Su Zhang, Lijing Zhou, Yuke Hu, Chenxu Zhao, Zhihao Liu, Zhan Qin,
- Abstract要約: キーバリュー(KV)キャッシュは、冗長な計算を避けるために中間注意計算(キーとバリューペア)を格納する。
本稿では,攻撃者がKV-cacheから直接センシティブなユーザ入力を再構築できることを実証し,脆弱性の包括的解析を行った。
我々は,新しい,軽量で効率的な防御機構であるKV-Cloakを提案する。
- 参考スコア(独自算出の注目度): 17.46930265810127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Key-Value (KV) cache, which stores intermediate attention computations (Key and Value pairs) to avoid redundant calculations, is a fundamental mechanism for accelerating Large Language Model (LLM) inference. However, this efficiency optimization introduces significant yet underexplored privacy risks. This paper provides the first comprehensive analysis of these vulnerabilities, demonstrating that an attacker can reconstruct sensitive user inputs directly from the KV-cache. We design and implement three distinct attack vectors: a direct Inversion Attack, a more broadly applicable and potent Collision Attack, and a semantic-based Injection Attack. These methods demonstrate the practicality and severity of KV-cache privacy leakage issues. To mitigate this, we propose KV-Cloak, a novel, lightweight, and efficient defense mechanism. KV-Cloak uses a reversible matrix-based obfuscation scheme, combined with operator fusion, to secure the KV-cache. Our extensive experiments show that KV-Cloak effectively thwarts all proposed attacks, reducing reconstruction quality to random noise. Crucially, it achieves this robust security with virtually no degradation in model accuracy and minimal performance overhead, offering a practical solution for trustworthy LLM deployment.
- Abstract(参考訳): キーバリュー(KV)キャッシュは、冗長な計算を避けるために中間注意計算(キーとバリューペア)を格納し、Large Language Model(LLM)推論を高速化するための基本的なメカニズムである。
しかし、この効率最適化は、未発見のプライバシーリスクを著しく引き起こす。
本稿では,攻撃者がKV-cacheから直接センシティブなユーザ入力を再構築できることを実証し,これらの脆弱性を包括的に分析する。
ダイレクト・インバージョン・アタック、より広く適用可能な強力なコリジョン・アタック、意味に基づくインジェクション・アタックの3つの異なるアタック・ベクターを設計・実装する。
これらの手法は、KVキャッシュのプライバシー漏洩問題の実用性と深刻さを示すものである。
そこで本研究では,新しい,軽量で効率的な防御機構であるKV-Cloakを提案する。
KV-Cloakは可逆行列ベースの難燃スキームと演算子融合を組み合わせてKV-cacheを確保する。
我々の広範な実験により、KV-Cloakは全ての攻撃を効果的に抑制し、再建品質をランダムノイズに低下させることが示された。
重要なのは、モデル精度が事実上低下せず、パフォーマンスのオーバーヘッドを最小限に抑えながら、この堅牢なセキュリティを実現し、信頼性の高いLLMデプロイメントのための実用的なソリューションを提供することです。
関連論文リスト
- KVSink: Understanding and Enhancing the Preservation of Attention Sinks in KV Cache Quantization for LLMs [0.0]
キーバリュー(KV)キャッシュ量子化は,大規模言語モデル(LLM)推論において広く採用されている最適化手法である。
近年の研究は、注意シンクの保護を確保するために、最初の数個のトークンに対してKVの本来の精度を維持することの重要性を強調している。
我々は,シンクトークンを無視できるオーバーヘッドで効果的に予測するプラグイン・アンド・プレイ方式であるtextittextbf KVSinkを紹介した。
論文 参考訳(メタデータ) (2025-08-06T09:40:09Z) - KV-Latent: Dimensional-level KV Cache Reduction with Frequency-aware Rotary Positional Embedding [72.12756830560217]
Transformer Decodersをベースとした大規模言語モデル(LLM)が、会話生成AIの選択肢として好まれている。
デコーダアーキテクチャの全体的な優位性にもかかわらず、推論中にキーバリューキャッシュが徐々に増加し、主要な効率ボトルネックとなっている。
キーバリューベクトル次元を潜在空間にダウンサンプリングすることで、KVキャッシュのフットプリントを大幅に削減し、推論速度を向上させることができる。
論文 参考訳(メタデータ) (2025-07-15T12:52:12Z) - ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [81.81027217759433]
大きな言語モデル(LLM)はキーバリュー(KV)キャッシュを保存するのに必要な過剰なメモリによって制約されることが多い。
近年,KVキャッシュの隠蔽次元の低減について検討されている。
本稿では,KVキャッシュの隠れ次元を削減した後学習KVキャッシュ圧縮手法ReCalKVを提案する。
論文 参考訳(メタデータ) (2025-05-30T08:49:27Z) - Robustifying Vision-Language Models via Dynamic Token Reweighting [28.675118345987887]
大きな視覚言語モデル(VLM)は、ジェイルブレイク攻撃に対して非常に脆弱である。
マルチモーダル・ジェイルブレイク攻撃を緩和する新しい推論時防御法を提案する。
視覚的モダリティによって誘導される安全関連分布シフトの新しい定式化を導入する。
論文 参考訳(メタデータ) (2025-05-22T03:00:39Z) - KeepKV: Eliminating Output Perturbation in KV Cache Compression for Efficient LLMs Inference [16.53643930310808]
KeepKVは、厳しいメモリ制約下で性能を保ちながら出力摂動を排除するために設計された、新しい適応KVキャッシュマージ手法である。
KeepKVはメモリ使用量を大幅に削減し、推論スループットを2倍以上に向上し、10%のKVキャッシュ予算でも優れた生成品質を維持している。
論文 参考訳(メタデータ) (2025-04-14T06:58:00Z) - DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。
提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Effectively Compress KV Heads for LLM [28.0801697946958]
キーバリュー(KV)キャッシュを圧縮する新しい手法を提案する。
提案手法は,従来のLLMに匹敵する性能を維持しつつ,KVヘッドの4分の1以上を圧縮することができる。
論文 参考訳(メタデータ) (2024-06-11T08:37:33Z) - No Token Left Behind: Reliable KV Cache Compression via Importance-Aware
Mixed Precision Quantization [31.806112535762367]
キーバリューキャッシングは、生成型大規模言語モデル(LLM)の推論速度とスループットを加速する重要な技術となっている。
論文 参考訳(メタデータ) (2024-02-28T06:34:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。