論文の概要: Selective KV-Cache Sharing to Mitigate Timing Side-Channels in LLM Inference
- arxiv url: http://arxiv.org/abs/2508.08438v1
- Date: Mon, 11 Aug 2025 19:55:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.218803
- Title: Selective KV-Cache Sharing to Mitigate Timing Side-Channels in LLM Inference
- Title(参考訳): LLM推論におけるタイミング側切手緩和のための選択的なKVキャッシュ共有
- Authors: Kexin Chu, Zecheng Lin, Dawei Xiang, Zixu Shen, Jianchang Su, Cheng Chu, Yiwei Yang, Wenhui Zhang, Wenfei Wu, Wei Zhang,
- Abstract要約: ユーザ単位のアイソレーションなどの既存の防御は、リークをなくすが、TTFT(Time-to-first-token)で最大38.9%性能を低下させる。
プライバシーに配慮したKV-cache管理フレームワークであるSafeKVを紹介した。
評価の結果,SafeKVは時間ベースのサイドチャネル攻撃の94%~97%を軽減していることがわかった。
- 参考スコア(独自算出の注目度): 6.864810630905683
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Global KV-cache sharing has emerged as a key optimization for accelerating large language model (LLM) inference. However, it exposes a new class of timing side-channel attacks, enabling adversaries to infer sensitive user inputs via shared cache entries. Existing defenses, such as per-user isolation, eliminate leakage but degrade performance by up to 38.9% in time-to-first-token (TTFT), making them impractical for high-throughput deployment. To address this gap, we introduce SafeKV (Secure and Flexible KV Cache Sharing), a privacy-aware KV-cache management framework that selectively shares non-sensitive entries while confining sensitive content to private caches. SafeKV comprises three components: (i) a hybrid, multi-tier detection pipeline that integrates rule-based pattern matching, a general-purpose privacy detector, and context-aware validation; (ii) a unified radix-tree index that manages public and private entries across heterogeneous memory tiers (HBM, DRAM, SSD); and (iii) entropy-based access monitoring to detect and mitigate residual information leakage. Our evaluation shows that SafeKV mitigates 94% - 97% of timing-based side-channel attacks. Compared to per-user isolation method, SafeKV improves TTFT by up to 40.58% and throughput by up to 2.66X across diverse LLMs and workloads. SafeKV reduces cache-induced TTFT overhead from 50.41% to 11.74% on Qwen3-235B. By combining fine-grained privacy control with high cache reuse efficiency, SafeKV reclaims the performance advantages of global sharing while providing robust runtime privacy guarantees for LLM inference.
- Abstract(参考訳): グローバルなKV-cache共有は,大規模言語モデル(LLM)推論の高速化の鍵となる最適化として登場した。
しかし、新しいタイプのタイミングサイドチャネル攻撃を公開し、敵は共有キャッシュエントリを介して機密性の高いユーザ入力を推測できる。
ユーザ単位のアイソレーションなどの既存のディフェンスでは、リークを排除しているが、TTFT(Time-to-first-token)では最大38.9%性能が低下しているため、高スループットデプロイメントでは実用的ではない。
このギャップに対処するため,プライバシーに配慮したKVキャッシュ管理フレームワークであるSafeKV(Secure and Flexible KV Cache Sharing)を紹介した。
SafeKVは3つのコンポーネントから構成される。
i)ルールベースのパターンマッチング,汎用プライバシ検出,コンテキスト認識検証を統合したハイブリッド多層検出パイプライン。
(ii)ヘテロジニアスメモリ層(HBM, DRAM, SSD)のパブリックおよびプライベートエントリを管理する統一されたラディックスツリーインデックス、及び
三 残余情報漏洩を検知し軽減するためのエントロピーに基づくアクセス監視。
評価の結果,SafeKVは時間ベースのサイドチャネル攻撃の94%~97%を軽減していることがわかった。
ユーザ毎の分離方法と比較して、SafeKVはTTFTを最大40.58%改善し、スループットを最大2.66倍改善している。
SafeKVはキャッシュによるTTFTオーバーヘッドをQwen3-235Bで50.41%から11.74%に削減する。
詳細なプライバシコントロールと高いキャッシュ再利用効率を組み合わせることで、SafeKVは、LLM推論のための堅牢なランタイムプライバシ保証を提供しながら、グローバル共有のパフォーマンス上のアドバンテージを回復する。
関連論文リスト
- WindowKV: Task-Adaptive Group-Wise KV Cache Window Selection for Efficient LLM Inference [9.572076809796448]
タスク適応型KVキャッシュウィンドウ選択手法であるWindowKVを提案する。
WindowKVは、元のKVキャッシュの12%しか使用せず、完全なKVキャッシュ保持に匹敵する性能を維持していることを示す。
提案手法は,Needle-in-a-Haystack評価における最先端の結果も達成し,その有効性と堅牢性を強調した。
論文 参考訳(メタデータ) (2025-03-23T03:36:52Z) - DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。
提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - KVLink: Accelerating Large Language Models via Efficient KV Cache Reuse [35.97391418064724]
KVLinkは、大規模言語モデル(LLM)における効率的なキー値(KV)キャッシュ再利用のためのアプローチである。
KVLinkは、連結後のグローバルな位置と一致するように、推論時にKVキャッシュの位置埋め込みを調整することと、自己注意を回復するためにトレーニング可能な特別なトークンを使用することである。
7つのデータセットにわたる実験によると、KVLinkは最先端の手法よりも平均4%の精度で質問応答を改善する。
論文 参考訳(メタデータ) (2025-02-21T23:34:29Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Model Tells You Where to Merge: Adaptive KV Cache Merging for LLMs on Long-Context Tasks [21.815661269986425]
KVMergerと呼ばれる新しいKVキャッシュマージ手法を提案し、長文タスクに対して適応的なKVキャッシュ圧縮を実現する。
我々のアプローチは、キー状態が1つのシーケンス内のトークンレベルで高い類似性を示すという興味深い観察にインスパイアされている。
我々は,制約メモリ予算下での長時間コンテキストタスクに対するKVMergerの有効性を示すため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-07-11T12:50:42Z) - PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling [38.732413451399]
ピラミッドKVは新規かつ効果的なKVキャッシュ圧縮法である。
提案手法は,KVキャッシュの12%しか保持せず,完全なKVキャッシュでモデルの性能と一致していることを示す。
Needle-in-a-Haystack実験では、Praamid KVは長文理解の維持において競合する手法より優れている。
論文 参考訳(メタデータ) (2024-06-04T07:51:30Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。