論文の概要: What Was Your Prompt? A Remote Keylogging Attack on AI Assistants
- arxiv url: http://arxiv.org/abs/2403.09751v1
- Date: Thu, 14 Mar 2024 09:38:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 21:35:10.677245
- Title: What Was Your Prompt? A Remote Keylogging Attack on AI Assistants
- Title(参考訳): あなたのプロンプトは何だった? AIアシスタントのリモートキーログ攻撃
- Authors: Roy Weiss, Daniel Ayzenshteyn, Guy Amit, Yisroel Mirsky,
- Abstract要約: 私たちは、Web上でAIアシスタントから暗号化されたレスポンスを読むのに使用できる、新しいサイドチャネルを公開します。
私たちはOpenAIやMicrosoftを含む多くのベンダーがこのサイドチャネルを持っていることに気づきました。
大規模言語モデルのパワーを活用してこれを克服する方法を示す。
- 参考スコア(独自算出の注目度): 3.2720947374803777
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI assistants are becoming an integral part of society, used for asking advice or help in personal and confidential issues. In this paper, we unveil a novel side-channel that can be used to read encrypted responses from AI Assistants over the web: the token-length side-channel. We found that many vendors, including OpenAI and Microsoft, have this side-channel. However, inferring the content of a response from a token-length sequence alone proves challenging. This is because tokens are akin to words, and responses can be several sentences long leading to millions of grammatically correct sentences. In this paper, we show how this can be overcome by (1) utilizing the power of a large language model (LLM) to translate these sequences, (2) providing the LLM with inter-sentence context to narrow the search space and (3) performing a known-plaintext attack by fine-tuning the model on the target model's writing style. Using these methods, we were able to accurately reconstruct 29\% of an AI assistant's responses and successfully infer the topic from 55\% of them. To demonstrate the threat, we performed the attack on OpenAI's ChatGPT-4 and Microsoft's Copilot on both browser and API traffic.
- Abstract(参考訳): AIアシスタントは社会に不可欠な存在になりつつある。
本稿では,Web上のAIアシスタントから暗号化された応答(トークン長サイドチャネル)を読み取るのに使用できる,新しいサイドチャネルについて紹介する。
私たちはOpenAIやMicrosoftを含む多くのベンダーがこのサイドチャネルを持っていることに気づきました。
しかし、トークン長列からの応答の内容のみを推測することは困難である。
これは、トークンが単語に似ており、応答が数文長くなり、数百万の文法的に正しい文に繋がるからである。
本稿では,(1)大言語モデル(LLM)の力を利用してこれらのシーケンスを翻訳し,(2)検索空間を狭めるための文間コンテキストをLLMに提供すること,(3)ターゲットモデルの書き込みスタイルを微調整して既知のテキスト攻撃を実行することによって,これを克服する方法について述べる。
これらの手法を用いて、AIアシスタントの応答の29\%を正確に再構成し、その55%からトピックを推測することができた。
この脅威を示すため、私たちはOpenAIのChatGPT-4とMicrosoftのCopilotをブラウザとAPIトラフィックの両方で攻撃した。
関連論文リスト
- 'Quis custodiet ipsos custodes?' Who will watch the watchmen? On Detecting AI-generated peer-reviews [20.030884734361358]
AIが生成したテキストが、ピアレビューを含む科学出版を損なうのではないかという懸念が高まっている。
本稿では,AIが頻繁にトークンを繰り返すことを示唆するTF(Term Frequency)モデルと,ChatGPTが再プロンプト時に同様の出力を生成するという考え方に基づくRR(Review Regeneration)モデルを紹介する。
以上の結果から,提案手法は,他のAIテキスト検出方法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-10-13T08:06:08Z) - Scene-Text Grounding for Text-Based Video Question Answering [97.1112579979614]
テキストベースのビデオ質問応答(TextVideoQA)の既存の取り組みは、不透明な意思決定とシーンテキスト認識への依存で批判されている。
我々は,モデルに質問への回答を強制し,関連するシーンテキスト領域を解釈させることにより,グラウンドドテキストビデオQAを研究する。
論文 参考訳(メタデータ) (2024-09-22T05:13:11Z) - Securing Multi-turn Conversational Language Models From Distributed Backdoor Triggers [29.554818890832887]
大規模言語モデル(LLM)は、長いコンテキスト長を処理し、テキストでニュアンスを理解する能力を獲得した。
本稿では,LDMのマルチターン機能と強力な学習能力を利用してエンドユーザを害する脆弱性を明らかにする。
本稿では, 応答列長を線形に拡張し, バックドアを0.35%まで小さくする復号時間ディフェンスを提案する。
論文 参考訳(メタデータ) (2024-07-04T20:57:06Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z) - A LLM Assisted Exploitation of AI-Guardian [57.572998144258705]
IEEE S&P 2023で発表された敵に対する最近の防衛であるAI-Guardianの堅牢性を評価する。
我々は、このモデルを攻撃するためのコードを書かず、代わりに、GPT-4に命令とガイダンスに従って全ての攻撃アルゴリズムを実装するよう促します。
このプロセスは驚くほど効果的で効率的であり、言語モデルでは、この論文の著者が実行したよりも高速に曖昧な命令からコードを生成することもあった。
論文 参考訳(メタデータ) (2023-07-20T17:33:25Z) - A Neural-Symbolic Approach Towards Identifying Grammatically Correct
Sentences [0.0]
テキスト要約、質問回答、機械翻訳、代名詞分解といった課題に取り組むためには、有効な情報源から十分に書かれたテキストにアクセスすることが重要であると一般に受け入れられている。
本稿では,新しいニューラルシンボリックアプローチにより,英語の文を簡易に検証する方法を提案する。
論文 参考訳(メタデータ) (2023-07-16T13:21:44Z) - Effidit: Your AI Writing Assistant [60.588370965898534]
Effiditは、人工知能(AI)技術を使用して、ユーザーが高品質なテキストをより効率的に書けるようにするためのデジタルライティングアシスタントである。
Effiditでは、テキスト補完、エラーチェック、テキスト研磨、キーワード・トゥ・センテンス(K2S)、クラウド・インプット・メソッド(クラウドIME)の5つのカテゴリで機能を提供することで、筆記アシスタントの能力を大幅に拡大する。
論文 参考訳(メタデータ) (2022-08-03T02:24:45Z) - State-of-the-art in Open-domain Conversational AI: A Survey [1.6507910904669727]
我々は,SoTAのオープンドメイン会話型AIモデルについて,今後の研究を刺激する上で有効な課題を提示する目的で調査する。
問題を取り巻く倫理的議論をガイドするために,対話型AIの性別に関する統計情報を提供する。
論文 参考訳(メタデータ) (2022-05-02T15:08:18Z) - TextHide: Tackling Data Privacy in Language Understanding Tasks [54.11691303032022]
TextHideは、トレーニングを遅くしたり、精度を下げることなく、プライバシー上のリスクを軽減する。
すべての参加者は、盗聴攻撃者がプライベートテキストデータを復元するのを防ぐために、簡単な暗号化ステップを追加する必要がある。
我々は、GLUEベンチマーク上でTextHideを評価し、TextHideが共有勾配や表現に対する攻撃を効果的に防御できることを示す。
論文 参考訳(メタデータ) (2020-10-12T22:22:15Z) - Enabling Language Models to Fill in the Blanks [81.59381915581892]
文書中の任意の位置にあるテキストの欠落を予測するタスクである,テキストを埋め込むためのシンプルなアプローチを提案する。
我々は、人工的にマスキングされたテキストと隠蔽されたテキストの連結を含むシーケンスに基づいて、オフザシェルフ言語モデル(またはファインチューン)を訓練する。
言語モデリングにより,この手法により,3つの分野(短編,科学的な要約,歌詞)において,LMが文全体を効果的に埋め込むことができることを示す。
論文 参考訳(メタデータ) (2020-05-11T18:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。