論文の概要: CacheProbe: Auditing Prompt Cache Isolation in Gateway APIs
- arxiv url: http://arxiv.org/abs/2605.30613v1
- Date: Thu, 28 May 2026 22:06:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 20:56:50.262139
- Title: CacheProbe: Auditing Prompt Cache Isolation in Gateway APIs
- Title(参考訳): CacheProbe: ゲートウェイAPIにおけるプロンプトキャッシュ分離の検証
- Authors: Ryan Fahey,
- Abstract要約: 本稿では,OpenのAPIゲートウェイアーキテクチャが,プロバイダレベルのインシデントキャッシュアイソレーション保証を回避可能な,インシデントキャッシュ脆弱性を導入したかどうかを検討する。
ほとんどの推論プロバイダは、データリークを防ぐために、アカウントごとまたは組織ごとのプロンプトキャッシュを実装していますが、Open経由のルーティングは、すべてのOpenユーザ間でグローバルキャッシュ共有を生成していますか?
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over the past year, prompt caching in Large Language Models (LLMs) has become increasingly more popular across inference APIs. Prompt caching helps save precious compute resources and speeds up response times by reusing parts of the KV cache of a specific prompt for another request. However, many implementations of prompt caching are not secure against timing attacks or even basic metadata disclosure. Gu et al. (ICML 2025) develop a method to audit prompt caching in LLMs. This paper investigates whether OpenRouter's API gateway architecture introduces prompt caching vulnerabilities that bypass provider-level prompt cache isolation guarantees. Most LLM inference providers implement per-account or per-organization prompt caching to prevent data leaks, but does routing through OpenRouter with shared organizational credentials inadvertently create global cache sharing across all OpenRouter users?
- Abstract(参考訳): 過去1年間で、Large Language Models(LLMs)の即時キャッシュは、推論APIでますます人気を増している。
プロンプトキャッシュは、重要な計算リソースを節約し、別のリクエストのために特定のプロンプトのKVキャッシュの一部を再利用することでレスポンス時間を短縮する。
しかし、プロンプトキャッシュの実装の多くは、タイミング攻撃や基本的なメタデータの開示に対して安全ではない。
Gu et al (ICML 2025) は LLM におけるプロンプトキャッシュを監査する手法を開発した。
本稿では,OpenRouterのAPIゲートウェイアーキテクチャが,プロバイダレベルのキャッシュアイソレーション保証を回避可能な,プロンプトキャッシュ脆弱性を導入したかどうかを検討する。
ほとんどのLCM推論プロバイダは、データリークを防ぐために、アカウント単位または組織ごとのプロンプトキャッシュを実装していますが、組織的な資格を共有したOpenRouterをルーティングすることで、すべてのOpenRouterユーザ間でグローバルキャッシュ共有を意図せずに作成しますか?
関連論文リスト
- Don't Break the Cache: An Evaluation of Prompt Caching for Long-Horizon Agentic Tasks [1.2292307778008844]
本稿では,3大言語モデル(LLM)プロバイダ間でのプロンプトキャッシュの総合評価について述べる。
以上の結果から,プロンプトキャッシングによりAPIコストが45~80%削減され,プロバイダ間で13~31%短縮された。
論文 参考訳(メタデータ) (2026-01-09T18:41:57Z) - Auditing Prompt Caching in Language Model APIs [77.02079451561718]
大規模言語モデル(LLM)における即時キャッシュによるプライバシリークについて検討する。
OpenAIを含む7つのAPIプロバイダのユーザ間でのグローバルキャッシュ共有を検出します。
OpenAIの埋め込みモデルがデコーダのみのトランスフォーマーであることの証拠が見つかりました。
論文 参考訳(メタデータ) (2025-02-11T18:58:04Z) - vCache: Verified Semantic Prompt Caching [95.16654660556975]
本稿では,ユーザ定義エラー率保証を備えた最初の検証済みセマンティックキャッシュであるvCacheを提案する。
オンライン学習アルゴリズムを使用して、キャッシュされたプロンプト毎に最適な閾値を推定し、追加のトレーニングなしで信頼性の高いキャッシュ応答を可能にする。
我々の実験によると、vCacheは特定のエラー境界を一貫して満たし、最先端の静的な閾値と微調整された埋め込みベースラインより優れています。
論文 参考訳(メタデータ) (2025-02-06T04:16:20Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - Prompt Cache: Modular Attention Reuse for Low-Latency Inference [12.610067639587461]
Prompt Cacheは,異なるプロンプトをまたいだ注意状態の再利用により,大規模言語モデル(LLM)の推論を高速化する手法である。
Prompt Cacheはスキーマを使用して、プロンプトモジュールと呼ばれる再利用可能なテキストセグメントを明示的に定義する。
本稿では,特により長いプロンプトに対して,Prompt Cacheがタイム・ツー・ファースト・トークンのレイテンシを著しく低減することを示す。
論文 参考訳(メタデータ) (2023-11-07T18:17:05Z) - Accelerating Deep Learning Classification with Error-controlled
Approximate-key Caching [72.50506500576746]
我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。
近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。
我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
論文 参考訳(メタデータ) (2021-12-13T13:49:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。