論文の概要: CacheSolidarity: Preventing Prefix Caching Side Channels in Multi-tenant LLM Serving Systems
- arxiv url: http://arxiv.org/abs/2603.10726v1
- Date: Wed, 11 Mar 2026 12:59:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.952024
- Title: CacheSolidarity: Preventing Prefix Caching Side Channels in Multi-tenant LLM Serving Systems
- Title(参考訳): Cacheソリダリティ:マルチテナントLDMサービングシステムにおけるプリフィックスキャッシュサイドチャネルの防止
- Authors: Panagiotis Georgios Pennas, Konstantinos Papaioannou, Marco Guarnieri, Thaleia Dimitra Doudali,
- Abstract要約: CacheSolidarityは、ユーザ間のキャッシュ再利用を監視し、不審な共有をフラグ化し、プレフィックスを選択的に分離する。
CacheSolidarityは最大70%高いキャッシュ再利用と30%低い推論遅延を可能にしている。
- 参考スコア(独自算出の注目度): 3.2128810211809196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) rely on optimizations like Automatic Prefix Caching (APC) to accelerate inference. APC works by reusing previously computed states for the beginning part of a request (prefix), when another request starts with the same text. While APC improves throughput, it introduces timing side channels: cache hits are faster than misses, creating observable latency differences. In multi-tenant systems, attackers can exploit these differences to infer sensitive information, e.g., by incrementally reconstructing another user's request by observing hit/miss patterns. Current defenses take a sledgehammer approach: they disable APC and cache sharing, isolating users, and sacrificing efficiency for regular users. This paper presents CacheSolidarity, a system that secures multi-tenant LLM serving systems against APC side channels without sacrificing performance and efficiency. CacheSolidarity monitors cache reuse across users, flags suspicious sharing, and selectively isolates prefixes, restricting their reuse only when necessary. Evaluation shows that CacheSolidarity enables up to 70% higher cache reuse and 30% lower inference latency compared to existing defenses that isolate users. CacheSolidarity's lightweight design demonstrates how security in LLM serving does not have to come at the cost of unnecessarily reduced performance or unbearable overheads.
- Abstract(参考訳): 大規模言語モデル(LLM)は推論を高速化するために自動修正キャッシュ(APC)のような最適化に依存している。
APCは、別の要求が同じテキストから始まるとき、リクエストの開始部分(prefix)のために以前計算された状態を再利用することで機能する。
APCはスループットを改善する一方で、タイミング側チャネルを導入している。キャッシュヒットはミスよりも高速で、観測可能なレイテンシの差が生じる。
マルチテナントシステムでは、攻撃者はこれらの違いを利用して機密情報を推測することができる。
現在の防衛は、APCとキャッシュ共有を無効にし、ユーザを分離し、通常のユーザのために効率を犠牲にする、という、ハンマーのアプローチを採用している。
本稿では,APC 側チャネルに対してマルチテナント LLM サービスシステムを実現する CacheSolidarity を提案する。
CacheSolidarityは、ユーザ間のキャッシュ再利用を監視し、不審な共有をフラグ化し、プレフィックスを選択的に分離し、必要に応じて再利用を制限する。
CacheSolidarityは、ユーザを隔離している既存のディフェンスと比較して、最大70%高いキャッシュ再利用と30%低い推論レイテンシを可能にしている。
CacheSolidarityの軽量設計は、LLMサービスにおけるセキュリティが、必要以上にパフォーマンスを低下させたり、耐え難いオーバーヘッドを犠牲にする必要のないことを実証している。
関連論文リスト
- TokenLake: A Unified Segment-level Prefix Cache Pool for Fine-grained Elastic Long-Context LLM Serving [12.80179556886128]
セグメントレベルのプレフィックス・キャッシュ・プールであるTokenLakeを提案する。
キャッシュインターフェースを使用して、リクエストのクエリテンソル、プレフィックス、キャッシュ対応操作を公開します。
TokenLakeはスループットを最大2.6$times$と2.0$times$に改善し、ヒット率を2.0$times$と2.1$times$に向上させることができる。
論文 参考訳(メタデータ) (2025-08-24T05:45:16Z) - Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [72.27673320976933]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおけるブレークスルーを可能にする。
現在のキャッシュ技術は、フルレイヤ状態を保存することでデコーディングを加速するが、メモリ使用量を大幅に増加させる。
Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークである。
論文 参考訳(メタデータ) (2025-08-04T16:14:03Z) - LaCache: Ladder-Shaped KV Caching for Efficient Long-Context Modeling of Large Language Models [52.56008278458534]
LaCacheは、大規模言語モデルの効率的かつ正確な生成推論のためのトレーニング不要の手法である。
LaCacheを使用することで、LLMは長期モデリングにおける重要な課題、すなわち堅牢な長距離機能と、メモリのアウト・オブ・メモリを走らせることなく連続的な生成の両方に対処できる。
論文 参考訳(メタデータ) (2025-07-14T19:09:57Z) - A Generative Caching System for Large Language Models [1.2132389187658934]
キャッシングは、大きな言語モデル(LLM)にアクセスする上で、大きなメリットをもたらす可能性がある。
本稿では,LLMを用いたユーザエクスペリエンス向上のための新しいキャッシングシステムを提案する。
生成キャッシングでは、複数のキャッシュされたレスポンスを合成して、これまで見たことのないクエリに対する回答を提供することができます。
論文 参考訳(メタデータ) (2025-03-22T01:17:56Z) - vCache: Verified Semantic Prompt Caching [95.16654660556975]
本稿では,ユーザ定義エラー率保証を備えた最初の検証済みセマンティックキャッシュであるvCacheを提案する。
オンライン学習アルゴリズムを使用して、キャッシュされたプロンプト毎に最適な閾値を推定し、追加のトレーニングなしで信頼性の高いキャッシュ応答を可能にする。
我々の実験によると、vCacheは特定のエラー境界を一貫して満たし、最先端の静的な閾値と微調整された埋め込みベースラインより優れています。
論文 参考訳(メタデータ) (2025-02-06T04:16:20Z) - InstCache: A Predictive Cache for LLM Serving [6.076957323090607]
キャッシング技術は、大規模言語モデル推論エンジンのパフォーマンスを最適化する機会を提供する。
命令の内容と長さのばらつきが大きいため、同じ命令が短時間のウィンドウ内で再帰することは稀である。
LLMサービスシステムの予測キャッシュ機構であるInstCacheを提案する。
論文 参考訳(メタデータ) (2024-11-21T03:52:41Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - SEA Cache: A Performance-Efficient Countermeasure for Contention-based Attacks [4.144828482272047]
既存のセキュアキャッシュ設計であるCEASER-SHキャッシュを拡張し,SEAキャッシュを提案する。
両方のキャッシュにおける新しいキャッシュ構成は論理的連想性であり、キャッシュラインをマッピングされたキャッシュセットだけでなく、その後のキャッシュセットにも配置することができる。
8の論理的連想性を持つCEASER-SHキャッシュと比較すると、通常の保護ユーザに対して1の論理的連想性を持つSEAキャッシュ、高保護ユーザに対して16のSEAキャッシュは、通常の保護下でのユーザに対して約0.6%減少し、競合ベースの攻撃に対するより優れたセキュリティを提供するCycles Per Instructionペナルティを持つ。
論文 参考訳(メタデータ) (2024-05-30T13:12:53Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。