論文の概要: What Was Your Prompt? A Remote Keylogging Attack on AI Assistants
- arxiv url: http://arxiv.org/abs/2403.09751v1
- Date: Thu, 14 Mar 2024 09:38:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 21:35:10.677245
- Title: What Was Your Prompt? A Remote Keylogging Attack on AI Assistants
- Title(参考訳): あなたのプロンプトは何だった? AIアシスタントのリモートキーログ攻撃
- Authors: Roy Weiss, Daniel Ayzenshteyn, Guy Amit, Yisroel Mirsky,
- Abstract要約: 私たちは、Web上でAIアシスタントから暗号化されたレスポンスを読むのに使用できる、新しいサイドチャネルを公開します。
私たちはOpenAIやMicrosoftを含む多くのベンダーがこのサイドチャネルを持っていることに気づきました。
大規模言語モデルのパワーを活用してこれを克服する方法を示す。
- 参考スコア(独自算出の注目度): 3.2720947374803777
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI assistants are becoming an integral part of society, used for asking advice or help in personal and confidential issues. In this paper, we unveil a novel side-channel that can be used to read encrypted responses from AI Assistants over the web: the token-length side-channel. We found that many vendors, including OpenAI and Microsoft, have this side-channel. However, inferring the content of a response from a token-length sequence alone proves challenging. This is because tokens are akin to words, and responses can be several sentences long leading to millions of grammatically correct sentences. In this paper, we show how this can be overcome by (1) utilizing the power of a large language model (LLM) to translate these sequences, (2) providing the LLM with inter-sentence context to narrow the search space and (3) performing a known-plaintext attack by fine-tuning the model on the target model's writing style. Using these methods, we were able to accurately reconstruct 29\% of an AI assistant's responses and successfully infer the topic from 55\% of them. To demonstrate the threat, we performed the attack on OpenAI's ChatGPT-4 and Microsoft's Copilot on both browser and API traffic.
- Abstract(参考訳): AIアシスタントは社会に不可欠な存在になりつつある。
本稿では,Web上のAIアシスタントから暗号化された応答(トークン長サイドチャネル)を読み取るのに使用できる,新しいサイドチャネルについて紹介する。
私たちはOpenAIやMicrosoftを含む多くのベンダーがこのサイドチャネルを持っていることに気づきました。
しかし、トークン長列からの応答の内容のみを推測することは困難である。
これは、トークンが単語に似ており、応答が数文長くなり、数百万の文法的に正しい文に繋がるからである。
本稿では,(1)大言語モデル(LLM)の力を利用してこれらのシーケンスを翻訳し,(2)検索空間を狭めるための文間コンテキストをLLMに提供すること,(3)ターゲットモデルの書き込みスタイルを微調整して既知のテキスト攻撃を実行することによって,これを克服する方法について述べる。
これらの手法を用いて、AIアシスタントの応答の29\%を正確に再構成し、その55%からトピックを推測することができた。
この脅威を示すため、私たちはOpenAIのChatGPT-4とMicrosoftのCopilotをブラウザとAPIトラフィックの両方で攻撃した。
関連論文リスト
- Dr. Jekyll and Mr. Hyde: Two Faces of LLMs [23.428082923794708]
この研究は、敵対的ペルソナを使用することで、ChatGPTとBardによって設定された安全メカニズムを克服できることを示している。
同じ原則で、信頼に値する個性を理解するためにモデルを推し進める2つの防衛法を導入する。
論文 参考訳(メタデータ) (2023-12-06T19:07:38Z) - Frontier Language Models are not Robust to Adversarial Arithmetic, or
"What do I need to say so you agree 2+2=5? [88.59136033348378]
言語モデルアライメントのための単純なテストベッドを提供する逆算術の問題を考察する。
この問題は自然言語で表される算術的な問題から成り、質問が完了する前に任意の逆文字列を挿入する。
これらの攻撃に対して、強化学習やエージェント構成ループを通じて、モデルを部分的に強化できることが示される。
論文 参考訳(メタデータ) (2023-11-08T19:07:10Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z) - A LLM Assisted Exploitation of AI-Guardian [57.572998144258705]
IEEE S&P 2023で発表された敵に対する最近の防衛であるAI-Guardianの堅牢性を評価する。
我々は、このモデルを攻撃するためのコードを書かず、代わりに、GPT-4に命令とガイダンスに従って全ての攻撃アルゴリズムを実装するよう促します。
このプロセスは驚くほど効果的で効率的であり、言語モデルでは、この論文の著者が実行したよりも高速に曖昧な命令からコードを生成することもあった。
論文 参考訳(メタデータ) (2023-07-20T17:33:25Z) - A Neural-Symbolic Approach Towards Identifying Grammatically Correct
Sentences [0.0]
テキスト要約、質問回答、機械翻訳、代名詞分解といった課題に取り組むためには、有効な情報源から十分に書かれたテキストにアクセスすることが重要であると一般に受け入れられている。
本稿では,新しいニューラルシンボリックアプローチにより,英語の文を簡易に検証する方法を提案する。
論文 参考訳(メタデータ) (2023-07-16T13:21:44Z) - Towards Explainable AI Writing Assistants for Non-native English
Speakers [3.7953068443263174]
テキストを言い換えるためにAI記述アシスタントを使用する場合、非ネイティブ話者が直面する課題を強調します。
提案するパラフレーズに付随する説明が欠如していることから,AI文字アシスタントが生成するパラフレーズテキストを評価するのが困難であることがわかった。
我々は,AI記述アシスタントを用いたNNESの書き込み体験を向上させるために,潜在的な4つのユーザインタフェースを提案する。
論文 参考訳(メタデータ) (2023-04-05T17:51:36Z) - Effidit: Your AI Writing Assistant [60.588370965898534]
Effiditは、人工知能(AI)技術を使用して、ユーザーが高品質なテキストをより効率的に書けるようにするためのデジタルライティングアシスタントである。
Effiditでは、テキスト補完、エラーチェック、テキスト研磨、キーワード・トゥ・センテンス(K2S)、クラウド・インプット・メソッド(クラウドIME)の5つのカテゴリで機能を提供することで、筆記アシスタントの能力を大幅に拡大する。
論文 参考訳(メタデータ) (2022-08-03T02:24:45Z) - State-of-the-art in Open-domain Conversational AI: A Survey [1.6507910904669727]
我々は,SoTAのオープンドメイン会話型AIモデルについて,今後の研究を刺激する上で有効な課題を提示する目的で調査する。
問題を取り巻く倫理的議論をガイドするために,対話型AIの性別に関する統計情報を提供する。
論文 参考訳(メタデータ) (2022-05-02T15:08:18Z) - TextHide: Tackling Data Privacy in Language Understanding Tasks [54.11691303032022]
TextHideは、トレーニングを遅くしたり、精度を下げることなく、プライバシー上のリスクを軽減する。
すべての参加者は、盗聴攻撃者がプライベートテキストデータを復元するのを防ぐために、簡単な暗号化ステップを追加する必要がある。
我々は、GLUEベンチマーク上でTextHideを評価し、TextHideが共有勾配や表現に対する攻撃を効果的に防御できることを示す。
論文 参考訳(メタデータ) (2020-10-12T22:22:15Z) - Enabling Language Models to Fill in the Blanks [81.59381915581892]
文書中の任意の位置にあるテキストの欠落を予測するタスクである,テキストを埋め込むためのシンプルなアプローチを提案する。
我々は、人工的にマスキングされたテキストと隠蔽されたテキストの連結を含むシーケンスに基づいて、オフザシェルフ言語モデル(またはファインチューン)を訓練する。
言語モデリングにより,この手法により,3つの分野(短編,科学的な要約,歌詞)において,LMが文全体を効果的に埋め込むことができることを示す。
論文 参考訳(メタデータ) (2020-05-11T18:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。