論文の概要: Selective KV-Cache Sharing to Mitigate Timing Side-Channels in LLM Inference
- arxiv url: http://arxiv.org/abs/2508.08438v1
- Date: Mon, 11 Aug 2025 19:55:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.218803
- Title: Selective KV-Cache Sharing to Mitigate Timing Side-Channels in LLM Inference
- Title(参考訳): LLM推論におけるタイミング側切手緩和のための選択的なKVキャッシュ共有
- Authors: Kexin Chu, Zecheng Lin, Dawei Xiang, Zixu Shen, Jianchang Su, Cheng Chu, Yiwei Yang, Wenhui Zhang, Wenfei Wu, Wei Zhang,
- Abstract要約: ユーザ単位のアイソレーションなどの既存の防御は、リークをなくすが、TTFT(Time-to-first-token)で最大38.9%性能を低下させる。
プライバシーに配慮したKV-cache管理フレームワークであるSafeKVを紹介した。
評価の結果,SafeKVは時間ベースのサイドチャネル攻撃の94%~97%を軽減していることがわかった。
- 参考スコア(独自算出の注目度): 6.864810630905683
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Global KV-cache sharing has emerged as a key optimization for accelerating large language model (LLM) inference. However, it exposes a new class of timing side-channel attacks, enabling adversaries to infer sensitive user inputs via shared cache entries. Existing defenses, such as per-user isolation, eliminate leakage but degrade performance by up to 38.9% in time-to-first-token (TTFT), making them impractical for high-throughput deployment. To address this gap, we introduce SafeKV (Secure and Flexible KV Cache Sharing), a privacy-aware KV-cache management framework that selectively shares non-sensitive entries while confining sensitive content to private caches. SafeKV comprises three components: (i) a hybrid, multi-tier detection pipeline that integrates rule-based pattern matching, a general-purpose privacy detector, and context-aware validation; (ii) a unified radix-tree index that manages public and private entries across heterogeneous memory tiers (HBM, DRAM, SSD); and (iii) entropy-based access monitoring to detect and mitigate residual information leakage. Our evaluation shows that SafeKV mitigates 94% - 97% of timing-based side-channel attacks. Compared to per-user isolation method, SafeKV improves TTFT by up to 40.58% and throughput by up to 2.66X across diverse LLMs and workloads. SafeKV reduces cache-induced TTFT overhead from 50.41% to 11.74% on Qwen3-235B. By combining fine-grained privacy control with high cache reuse efficiency, SafeKV reclaims the performance advantages of global sharing while providing robust runtime privacy guarantees for LLM inference.
- Abstract(参考訳): グローバルなKV-cache共有は,大規模言語モデル(LLM)推論の高速化の鍵となる最適化として登場した。
しかし、新しいタイプのタイミングサイドチャネル攻撃を公開し、敵は共有キャッシュエントリを介して機密性の高いユーザ入力を推測できる。
ユーザ単位のアイソレーションなどの既存のディフェンスでは、リークを排除しているが、TTFT(Time-to-first-token)では最大38.9%性能が低下しているため、高スループットデプロイメントでは実用的ではない。
このギャップに対処するため,プライバシーに配慮したKVキャッシュ管理フレームワークであるSafeKV(Secure and Flexible KV Cache Sharing)を紹介した。
SafeKVは3つのコンポーネントから構成される。
i)ルールベースのパターンマッチング,汎用プライバシ検出,コンテキスト認識検証を統合したハイブリッド多層検出パイプライン。
(ii)ヘテロジニアスメモリ層(HBM, DRAM, SSD)のパブリックおよびプライベートエントリを管理する統一されたラディックスツリーインデックス、及び
三 残余情報漏洩を検知し軽減するためのエントロピーに基づくアクセス監視。
評価の結果,SafeKVは時間ベースのサイドチャネル攻撃の94%~97%を軽減していることがわかった。
ユーザ毎の分離方法と比較して、SafeKVはTTFTを最大40.58%改善し、スループットを最大2.66倍改善している。
SafeKVはキャッシュによるTTFTオーバーヘッドをQwen3-235Bで50.41%から11.74%に削減する。
詳細なプライバシコントロールと高いキャッシュ再利用効率を組み合わせることで、SafeKVは、LLM推論のための堅牢なランタイムプライバシ保証を提供しながら、グローバル共有のパフォーマンス上のアドバンテージを回復する。
関連論文リスト
- DeltaKV: Residual-Based KV Cache Compression via Long-Range Similarity [50.52392445266824]
そこで本稿では,KV表現における長距離間類似性と高共有遅延成分を動機とする残差ベースのKVキャッシュ圧縮フレームワークを提案する。
DeltaKVはトークンを捨てる代わりに、検索した履歴参照に対するセマンティックな残基をエンコードし、保存を著しく削減する。
実験によると、DeltaKVは、LongBench、SCBench、AIMEでほぼロスレスの精度を維持しながら、KVキャッシュメモリを元の29%に削減している。
論文 参考訳(メタデータ) (2026-02-08T15:14:36Z) - Fast KVzip: Efficient and Accurate LLM Inference with Gated KV Eviction [50.99402504483692]
凍結重み付き言語モデルのための新しいゲーティングベースのKVキャッシュ消去手法を提案する。
私たちのアプローチは、プリフィルとデコードの両方の段階にシームレスに統合されます。
実験の結果,KVキャッシュの最大70%を除去しながら,ほぼ無作為な性能を維持していることがわかった。
論文 参考訳(メタデータ) (2026-01-25T03:07:54Z) - CommonKV: Compressing KV Cache with Cross-layer Parameter Sharing [54.34080239841088]
CommonKVは、隣接パラメータ共有による層間KVキャッシュ圧縮のトレーニング不要な方法である。
提案手法は,様々な圧縮比で既存の低ランクおよびクロスレイヤーの手法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-08-22T06:55:45Z) - Shadow in the Cache: Unveiling and Mitigating Privacy Risks of KV-cache in LLM Inference [17.46930265810127]
キーバリュー(KV)キャッシュは、冗長な計算を避けるために中間注意計算(キーとバリューペア)を格納する。
本稿では,攻撃者がKV-cacheから直接センシティブなユーザ入力を再構築できることを実証し,脆弱性の包括的解析を行った。
我々は,新しい,軽量で効率的な防御機構であるKV-Cloakを提案する。
論文 参考訳(メタデータ) (2025-08-13T02:48:25Z) - WindowKV: Task-Adaptive Group-Wise KV Cache Window Selection for Efficient LLM Inference [9.572076809796448]
タスク適応型KVキャッシュウィンドウ選択手法であるWindowKVを提案する。
WindowKVは、元のKVキャッシュの12%しか使用せず、完全なKVキャッシュ保持に匹敵する性能を維持していることを示す。
提案手法は,Needle-in-a-Haystack評価における最先端の結果も達成し,その有効性と堅牢性を強調した。
論文 参考訳(メタデータ) (2025-03-23T03:36:52Z) - DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。
提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - KVLink: Accelerating Large Language Models via Efficient KV Cache Reuse [35.97391418064724]
KVLinkは、大規模言語モデル(LLM)における効率的なキー値(KV)キャッシュ再利用のためのアプローチである。
KVLinkは、連結後のグローバルな位置と一致するように、推論時にKVキャッシュの位置埋め込みを調整することと、自己注意を回復するためにトレーニング可能な特別なトークンを使用することである。
7つのデータセットにわたる実験によると、KVLinkは最先端の手法よりも平均4%の精度で質問応答を改善する。
論文 参考訳(メタデータ) (2025-02-21T23:34:29Z) - MPCache: MPC-Friendly KV Cache Eviction for Efficient Private LLM Inference [15.460864137509654]
LLM推論のためのMPCacheと呼ばれる,正確かつMPCに優しいKVキャッシュ消去フレームワークを提案する。
MPCacheは、異なる生成タスク間で、先進的なKVキャッシュ消去ベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-01-12T13:18:04Z) - KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。
実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。
我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文 参考訳(メタデータ) (2024-10-24T08:06:41Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Model Tells You Where to Merge: Adaptive KV Cache Merging for LLMs on Long-Context Tasks [21.815661269986425]
KVMergerと呼ばれる新しいKVキャッシュマージ手法を提案し、長文タスクに対して適応的なKVキャッシュ圧縮を実現する。
我々のアプローチは、キー状態が1つのシーケンス内のトークンレベルで高い類似性を示すという興味深い観察にインスパイアされている。
我々は,制約メモリ予算下での長時間コンテキストタスクに対するKVMergerの有効性を示すため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-07-11T12:50:42Z) - PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling [38.732413451399]
ピラミッドKVは新規かつ効果的なKVキャッシュ圧縮法である。
提案手法は,KVキャッシュの12%しか保持せず,完全なKVキャッシュでモデルの性能と一致していることを示す。
Needle-in-a-Haystack実験では、Praamid KVは長文理解の維持において競合する手法より優れている。
論文 参考訳(メタデータ) (2024-06-04T07:51:30Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。