論文の概要: Auditing Prompt Caching in Language Model APIs
- arxiv url: http://arxiv.org/abs/2502.07776v1
- Date: Tue, 11 Feb 2025 18:58:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:10:24.446094
- Title: Auditing Prompt Caching in Language Model APIs
- Title(参考訳): 言語モデルAPIにおけるプロンプトキャッシュの監査
- Authors: Chenchen Gu, Xiang Lisa Li, Rohith Kuditipudi, Percy Liang, Tatsunori Hashimoto,
- Abstract要約: 大規模言語モデル(LLM)における即時キャッシュによるプライバシリークについて検討する。
OpenAIを含む7つのAPIプロバイダのユーザ間でのグローバルキャッシュ共有を検出します。
OpenAIの埋め込みモデルがデコーダのみのトランスフォーマーであることの証拠が見つかりました。
- 参考スコア(独自算出の注目度): 77.02079451561718
- License:
- Abstract: Prompt caching in large language models (LLMs) results in data-dependent timing variations: cached prompts are processed faster than non-cached prompts. These timing differences introduce the risk of side-channel timing attacks. For example, if the cache is shared across users, an attacker could identify cached prompts from fast API response times to learn information about other users' prompts. Because prompt caching may cause privacy leakage, transparency around the caching policies of API providers is important. To this end, we develop and conduct statistical audits to detect prompt caching in real-world LLM API providers. We detect global cache sharing across users in seven API providers, including OpenAI, resulting in potential privacy leakage about users' prompts. Timing variations due to prompt caching can also result in leakage of information about model architecture. Namely, we find evidence that OpenAI's embedding model is a decoder-only Transformer, which was previously not publicly known.
- Abstract(参考訳): 大規模言語モデル(LLM)のプロンプトキャッシュは、データ依存のタイミング変化をもたらす:キャッシュされたプロンプトは、非キャッシュされたプロンプトよりも高速に処理される。
これらのタイミングの違いは、サイドチャネルタイミングアタックのリスクをもたらす。
例えば、キャッシュがユーザ間で共有されている場合、攻撃者は高速なAPI応答時間からキャッシュされたプロンプトを特定して、他のユーザのプロンプトに関する情報を学習することができる。
迅速なキャッシュはプライバシの漏洩を引き起こす可能性があるため、APIプロバイダのキャッシュポリシに関する透明性が重要である。
この目的のために,実世界のLLM APIプロバイダにおける即時キャッシュ検出のための統計監査を開発し,実施する。
OpenAIを含む7つのAPIプロバイダ内のユーザ間でのグローバルキャッシュ共有を検出します。
迅速なキャッシュによるタイミングの変化は、モデルアーキテクチャに関する情報を漏洩させる可能性がある。
すなわち、OpenAIの埋め込みモデルがデコーダのみのトランスフォーマーであることの証拠が見つかった。
関連論文リスト
- InstCache: A Predictive Cache for LLM Serving [9.878166964839512]
本稿では,命令整合 LLM によるユーザインストラクションの予測と,それを予測キャッシュ,いわゆる InstCache に格納することを提案する。
実験の結果、InstCacheはLMSysデータセット上で最大51.34%のヒット率を達成でき、メモリコストは4.5GBに過ぎなかった。
論文 参考訳(メタデータ) (2024-11-21T03:52:41Z) - Prompt Tuning as User Inherent Profile Inference Machine [53.78398656789463]
本稿では,ユーザプロファイルの推測にプロンプトチューニングを用いるUserIP-Tuningを提案する。
プロファイル量子化コードブックは、プロファイル埋め込みによるモダリティギャップを協調IDにブリッジする。
4つの公開データセットの実験では、UserIP-Tuningは最先端のレコメンデーションアルゴリズムを上回っている。
論文 参考訳(メタデータ) (2024-08-13T02:25:46Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - Hidden Web Caches Discovery [3.9272151228741716]
本稿では,タイミング解析を用いたキャッシュ検出手法を提案する。
このアプローチはキャッシュのステータスヘッダへの依存性を排除し、あらゆるWebサーバに適用できます。
論文 参考訳(メタデータ) (2024-07-23T08:58:06Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z) - SCALM: Towards Semantic Caching for Automated Chat Services with Large Language Models [15.742472622602557]
セマンティック分析を重視し,重要なキャッシュエントリやパターンを識別する新しいキャッシュアーキテクチャであるSCALMを提案する。
評価の結果,SCALMはキャッシュヒット率を増大させ,LLMChatサービスの運用コストを低減させることがわかった。
論文 参考訳(メタデータ) (2024-05-24T08:16:22Z) - MeanCache: User-Centric Semantic Cache for Large Language Model Based Web Services [8.350378532274405]
キャッシングは、繰り返しクエリの推論コストを削減するための自然なソリューションである。
本稿では,LLMベースのサービスのためのユーザ中心セマンティックキャッシュであるMeanCacheを紹介する。
MeanCacheは、セマンティックに類似したクエリを特定して、キャッシュヒットやミスを判定する。
論文 参考訳(メタデータ) (2024-03-05T06:23:50Z) - Prompt Cache: Modular Attention Reuse for Low-Latency Inference [12.610067639587461]
Prompt Cacheは,異なるプロンプトをまたいだ注意状態の再利用により,大規模言語モデル(LLM)の推論を高速化する手法である。
Prompt Cacheはスキーマを使用して、プロンプトモジュールと呼ばれる再利用可能なテキストセグメントを明示的に定義する。
本稿では,特により長いプロンプトに対して,Prompt Cacheがタイム・ツー・ファースト・トークンのレイテンシを著しく低減することを示す。
論文 参考訳(メタデータ) (2023-11-07T18:17:05Z) - Accelerating Deep Learning Classification with Error-controlled
Approximate-key Caching [72.50506500576746]
我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。
近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。
我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
論文 参考訳(メタデータ) (2021-12-13T13:49:11Z) - Reinforcement Learning for Caching with Space-Time Popularity Dynamics [61.55827760294755]
キャッシングは次世代ネットワークにおいて重要な役割を果たすと想定されている。
コンテンツをインテリジェントにプリフェッチし、保存するためには、キャッシュノードは、何といつキャッシュするかを学ばなければならない。
本章では、近似キャッシングポリシー設計のための多目的強化学習に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-19T01:23:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。