Fugu-MT 論文翻訳(概要): Auditing Prompt Caching in Language Model APIs

論文の概要: Auditing Prompt Caching in Language Model APIs

arxiv url: http://arxiv.org/abs/2502.07776v1
Date: Tue, 11 Feb 2025 18:58:04 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-12 18:22:48.291123
Title: Auditing Prompt Caching in Language Model APIs
Title（参考訳）: 言語モデルAPIにおけるプロンプトキャッシュの監査
Authors: Chenchen Gu, Xiang Lisa Li, Rohith Kuditipudi, Percy Liang, Tatsunori Hashimoto,
Abstract要約: 大規模言語モデル(LLM)における即時キャッシュによるプライバシリークについて検討する。 OpenAIを含む7つのAPIプロバイダのユーザ間でのグローバルキャッシュ共有を検出します。 OpenAIの埋め込みモデルがデコーダのみのトランスフォーマーであることの証拠が見つかりました。
参考スコア（独自算出の注目度）: 77.02079451561718
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Prompt caching in large language models (LLMs) results in data-dependent timing variations: cached prompts are processed faster than non-cached prompts. These timing differences introduce the risk of side-channel timing attacks. For example, if the cache is shared across users, an attacker could identify cached prompts from fast API response times to learn information about other users' prompts. Because prompt caching may cause privacy leakage, transparency around the caching policies of API providers is important. To this end, we develop and conduct statistical audits to detect prompt caching in real-world LLM API providers. We detect global cache sharing across users in seven API providers, including OpenAI, resulting in potential privacy leakage about users' prompts. Timing variations due to prompt caching can also result in leakage of information about model architecture. Namely, we find evidence that OpenAI's embedding model is a decoder-only Transformer, which was previously not publicly known.
Abstract（参考訳）: 大規模言語モデル(LLM)のプロンプトキャッシュは、データ依存のタイミング変化をもたらす:キャッシュされたプロンプトは、非キャッシュされたプロンプトよりも高速に処理される。これらのタイミングの違いは、サイドチャネルタイミングアタックのリスクをもたらす。例えば、キャッシュがユーザ間で共有されている場合、攻撃者は高速なAPI応答時間からキャッシュされたプロンプトを特定して、他のユーザのプロンプトに関する情報を学習することができる。迅速なキャッシュはプライバシの漏洩を引き起こす可能性があるため、APIプロバイダのキャッシュポリシに関する透明性が重要である。この目的のために,実世界のLLM APIプロバイダにおける即時キャッシュ検出のための統計監査を開発し,実施する。 OpenAIを含む7つのAPIプロバイダ内のユーザ間でのグローバルキャッシュ共有を検出します。迅速なキャッシュによるタイミングの変化は、モデルアーキテクチャに関する情報を漏洩させる可能性がある。すなわち、OpenAIの埋め込みモデルがデコーダのみのトランスフォーマーであることの証拠が見つかった。

関連論文リスト

A Generative Caching System for Large Language Models [1.2132389187658934]
キャッシングは、大きな言語モデル(LLM)にアクセスする上で、大きなメリットをもたらす可能性がある。本稿では,LLMを用いたユーザエクスペリエンス向上のための新しいキャッシングシステムを提案する。生成キャッシングでは、複数のキャッシュされたレスポンスを合成して、これまで見たことのないクエリに対する回答を提供することができます。
論文参考訳（メタデータ） (2025-03-22T01:17:56Z)
vCache: Verified Semantic Prompt Caching [75.87215136638828]
本稿では,ユーザ定義エラー率保証を備えた最初の検証済みセマンティックキャッシュであるvCacheを提案する。オンライン学習アルゴリズムを使用して、キャッシュされたプロンプト毎に最適な閾値を推定し、追加のトレーニングなしで信頼性の高いキャッシュ応答を可能にする。我々の実験によると、vCacheは特定のエラー境界を一貫して満たし、最先端の静的な閾値と微調整された埋め込みベースラインより優れています。
論文参考訳（メタデータ） (2025-02-06T04:16:20Z)
On the Differential Privacy and Interactivity of Privacy Sandbox Reports [78.21466601986265]
GoogleのPrivacy Sandboxイニシアチブには、プライバシ保護広告機能を実現するAPIが含まれている。これらのAPIのプライバシを分析するための形式モデルを提供し、それらが正式なDP保証を満たすことを示す。
論文参考訳（メタデータ） (2024-12-22T08:22:57Z)
InputSnatch: Stealing Input in LLM Services via Timing Side-Channel Attacks [9.748438507132207]
大規模言語モデル (LLM) には広範な知識と質問応答能力がある。キャッシュ共有メソッドは、キャッシュされた状態や、同じまたは同様の推論要求に対するレスポンスを再利用することで、効率を高めるために一般的に使用される。 LLMの推論において入力盗難を実行するための新しいタイミングベースのサイドチャネル攻撃を提案する。
論文参考訳（メタデータ） (2024-11-27T10:14:38Z)
Prompt Tuning as User Inherent Profile Inference Machine [53.78398656789463]
本稿では,ユーザプロファイルの推測にプロンプトチューニングを用いるUserIP-Tuningを提案する。プロファイル量子化コードブックは、プロファイル埋め込みによるモダリティギャップを協調IDにブリッジする。 4つの公開データセットの実験では、UserIP-Tuningは最先端のレコメンデーションアルゴリズムを上回っている。
論文参考訳（メタデータ） (2024-08-13T02:25:46Z)
Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。命令符号化では,キャッシュの重要性を評価するために周波数を利用する。様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文参考訳（メタデータ） (2024-07-25T15:29:05Z)
Hidden Web Caches Discovery [3.9272151228741716]
本稿では,タイミング解析を用いたキャッシュ検出手法を提案する。このアプローチはキャッシュのステータスヘッダへの依存性を排除し、あらゆるWebサーバに適用できます。
論文参考訳（メタデータ） (2024-07-23T08:58:06Z)
SCALM: Towards Semantic Caching for Automated Chat Services with Large Language Models [15.742472622602557]
セマンティック分析を重視し,重要なキャッシュエントリやパターンを識別する新しいキャッシュアーキテクチャであるSCALMを提案する。評価の結果,SCALMはキャッシュヒット率を増大させ,LLMChatサービスの運用コストを低減させることがわかった。
論文参考訳（メタデータ） (2024-05-24T08:16:22Z)
Prompt Cache: Modular Attention Reuse for Low-Latency Inference [12.610067639587461]
Prompt Cacheは,異なるプロンプトをまたいだ注意状態の再利用により,大規模言語モデル(LLM)の推論を高速化する手法である。 Prompt Cacheはスキーマを使用して、プロンプトモジュールと呼ばれる再利用可能なテキストセグメントを明示的に定義する。本稿では,特により長いプロンプトに対して,Prompt Cacheがタイム・ツー・ファースト・トークンのレイテンシを著しく低減することを示す。
論文参考訳（メタデータ） (2023-11-07T18:17:05Z)
Accelerating Deep Learning Classification with Error-controlled Approximate-key Caching [72.50506500576746]
我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
論文参考訳（メタデータ） (2021-12-13T13:49:11Z)
Reinforcement Learning for Caching with Space-Time Popularity Dynamics [61.55827760294755]
キャッシングは次世代ネットワークにおいて重要な役割を果たすと想定されている。コンテンツをインテリジェントにプリフェッチし、保存するためには、キャッシュノードは、何といつキャッシュするかを学ばなければならない。本章では、近似キャッシングポリシー設計のための多目的強化学習に基づくアプローチを提案する。
論文参考訳（メタデータ） (2020-05-19T01:23:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。