論文の概要: CachePrune: Privacy-Aware and Fine-Grained KV Cache Sharing for Efficient LLM Inference
- arxiv url: http://arxiv.org/abs/2605.23640v1
- Date: Fri, 22 May 2026 13:54:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.374987
- Title: CachePrune: Privacy-Aware and Fine-Grained KV Cache Sharing for Efficient LLM Inference
- Title(参考訳): CachePrune: 効率的なLCM推論のためのプライバシ意識ときめ細かいKVキャッシュ共有
- Authors: Guanlong Wu, Zhaohan li, Yao Zhang, Zheng Zhang, Jianyu Niu, Ye Wu, Yinqian Zhang,
- Abstract要約: CachePruneは、プライバシを意識したKVキャッシュ共有機構で、リクエスト間のKVエントリのきめ細かい再利用を可能にする。
KVキャッシュ再利用サイドチャネルによる直接リークを排除し,TTFTを4.5倍削減し,キャッシュヒット率を44%向上させることを示す。
- 参考スコア(独自算出の注目度): 21.373440644465607
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) rely on Key-Value (KV) caching to accelerate inference, and many serving systems further share the KV cache across users' requests to reduce redundant computation. While widely adopted, unrestricted cross-user sharing introduces side-channel vulnerabilities, allowing an adversary to infer user inputs by probing for cache reuse. Existing defenses disable sharing entirely to prevent leakage; yet such a coarse-grained strategy sacrifices substantial reuse potential, since prompts often include large portions of privacy-irrelevant segments, such as system instructions or publicly accessible materials. Building on this, we present CachePrune, a privacy-aware KV cache sharing mechanism that enables fine-grained reuse of KV entries across requests. Realizing such fine granularity requires token-level cache management, as reusable segments vary in length and position due to sensitivity masking, making reuse more complex than the fixed-size or sentence-level chunking used in existing coarse-grained schemes. Specifically, CachePrune makes fine-grained reuse practical by addressing two key challenges: accurately and efficiently deriving reusable KV segments and efficiently retrieving them over variable-length spans. We implement CachePrune on top of vLLM and evaluate it on three datasets, showing that it eliminates direct leakage through KV cache reuse side channels while reducing TTFT by 4.5x and increasing cache hit rates by 44% compared with state-of-the-art approaches.
- Abstract(参考訳): 大規模言語モデル(LLM)は、推論を高速化するためにキーバリュー(KV)キャッシュに依存しており、多くのサービスシステムは、冗長な計算を減らすために、ユーザの要求間でKVキャッシュを共有する。
広く採用されているが、制限なしのクロスユーザー共有は、サイドチャネルの脆弱性を導入し、相手がキャッシュ再利用を調査することで、ユーザの入力を推測することを可能にする。
既存の防衛は、漏洩を防ぐために共有を完全に無効にしているが、そのような粗い戦略は、システム命令や一般にアクセス可能な資料など、プライバシーに関係のない部分の大部分を含むことが多いため、かなりの再利用可能性の犠牲になる。
これは、プライバシを意識したKVキャッシュ共有機構で、リクエスト間のKVエントリのきめ細かい再利用を可能にする。
このような細かい粒度を実現するにはトークンレベルのキャッシュ管理が必要であり、再利用可能なセグメントは感度マスキングによって長さと位置が異なるため、既存の粗粒化スキームで使用される固定サイズや文レベルのチャンキングよりも再利用が複雑になる。
具体的には、CachePruneは、再利用可能なKVセグメントを正確かつ効率的に導き出し、可変長スパン上でそれらを効率的に取り出すという、2つの重要な課題に対処することで、きめ細かい再利用を実践する。
我々は、vLLM上にCachePruneを実装し、3つのデータセットで評価し、KVキャッシュ再利用サイドチャネルによる直接リークを排除し、TTFTを4.5倍削減し、最先端のアプローチと比較してキャッシュヒット率を44%向上させることを示した。
関連論文リスト
- Make Each Token Count: Towards Improving Long-Context Performance with KV Cache Eviction [65.710271475739]
我々は,各トークンの将来のユーティリティを統一メモリ予算の下で学習する,グローバルな保持に基づくKV消去手法を提案する。
提案手法は,フルキャッシュ推論に適合したり,超えたりしながら,KVメモリを大幅に削減することを示す。
これらの結果から,世界規模で校正されたKV消去は圧縮技術であるだけでなく,長文推論を改善するメカニズムでもあることが示唆された。
論文 参考訳(メタデータ) (2026-05-10T16:47:50Z) - DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。
提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - SCBench: A KV Cache-Centric Analysis of Long-Context Methods [61.025422435235456]
KVキャッシュ中心の視点から長文の手法を評価するベンチマークであるSCBenchを紹介する。
我々は、Gated Linear RNNsやMamba-Attention Hybridsを含む8つのカテゴリの長期コンテキストソリューションについて、広範なKVキャッシュ中心の分析を行う。
本研究は,O(n)メモリとサブO(n2)プリフィルによるスパース符号化が堅牢に動作する一方で,サブO(n)メモリ手法がマルチターンシナリオに悩まされていることを示す。
論文 参考訳(メタデータ) (2024-12-13T17:59:52Z) - CacheBlend: Fast Large Language Model Serving for RAG with Cached Knowledge Fusion [15.344568214955688]
大規模な言語モデル(LLM)は、必要なコンテキストを提供するために、入力に複数のテキストチャンクを組み込むことが多い。
長いLLM入力のプリフィルを高速化するため、別のLLM入力のプレフィックスとしてコンテキストが再利用された場合、テキストのKVキャッシュをプリコンプリートし、KVキャッシュを再使用することができる。
本稿では,KVキャッシュを高速に組み合わせて,高価なプリフィルと同世代の品質を実現する方法を提案する。
論文 参考訳(メタデータ) (2024-05-26T06:00:17Z) - Cost-Efficient Large Language Model Serving for Multi-turn Conversations with CachedAttention [13.041210267981613]
CachedAttentionは、マルチターン会話間でKVキャッシュの再利用を可能にする新しいアテンションメカニズムである。
これは、最初のトークン(TTFT)までの時間を最大87%削減し、マルチターン会話のスループットを最大7.8$times$に改善し、エンドツーエンドの推論コストを最大70%削減する。
論文 参考訳(メタデータ) (2024-03-23T10:42:49Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。
KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。