論文の概要: Reconstruct Your Previous Conversations! Comprehensively Investigating Privacy Leakage Risks in Conversations with GPT Models
- arxiv url: http://arxiv.org/abs/2402.02987v2
- Date: Mon, 07 Oct 2024 12:11:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 18:00:56.394047
- Title: Reconstruct Your Previous Conversations! Comprehensively Investigating Privacy Leakage Risks in Conversations with GPT Models
- Title(参考訳): 事前会話の再構築! GPTモデルを用いた会話におけるプライバシー漏洩リスクの総合的調査
- Authors: Junjie Chu, Zeyang Sha, Michael Backes, Yang Zhang,
- Abstract要約: GPTモデルはタスク最適化にますます利用されている。
本稿では,直接的かつ強力な会話再構築攻撃について紹介する。
過去の会話の再構築をめざした2つの先進的な攻撃を提示する。
- 参考スコア(独自算出の注目度): 20.92843974858305
- License:
- Abstract: Significant advancements have recently been made in large language models represented by GPT models. Users frequently have multi-round private conversations with cloud-hosted GPT models for task optimization. Yet, this operational paradigm introduces additional attack surfaces, particularly in custom GPTs and hijacked chat sessions. In this paper, we introduce a straightforward yet potent Conversation Reconstruction Attack. This attack targets the contents of previous conversations between GPT models and benign users, i.e., the benign users' input contents during their interaction with GPT models. The adversary could induce GPT models to leak such contents by querying them with designed malicious prompts. Our comprehensive examination of privacy risks during the interactions with GPT models under this attack reveals GPT-4's considerable resilience. We present two advanced attacks targeting improved reconstruction of past conversations, demonstrating significant privacy leakage across all models under these advanced techniques. Evaluating various defense mechanisms, we find them ineffective against these attacks. Our findings highlight the ease with which privacy can be compromised in interactions with GPT models, urging the community to safeguard against potential abuses of these models' capabilities.
- Abstract(参考訳): GPTモデルで表される大きな言語モデルにおいて、近年重要な進歩がなされている。
タスク最適化のために、クラウドでホストされたGPTモデルと複数ラウンドのプライベートな会話をすることが多い。
しかし、この運用パラダイムは、特にカスタムGPTやハイジャックされたチャットセッションにおいて、追加のアタックサーフェスを導入している。
本稿では,直接的かつ強力な会話再構築攻撃について紹介する。
この攻撃は、GPTモデルと良性ユーザ間の以前の会話の内容、すなわち、GPTモデルとのインタラクション中に良性ユーザの入力内容をターゲットにしている。
敵は、デザインされた悪意のあるプロンプトでそれらをクエリすることで、GPTモデルにそのようなコンテンツをリークさせることができる。
本攻撃下でのGPTモデルとの相互作用におけるプライバシーリスクの包括的検討により,GPT-4の相当なレジリエンスが明らかとなった。
本稿では,過去の会話の再構築を目標とした2つの高度な攻撃について述べる。
様々な防御機構を評価したところ、これらの攻撃に対して効果がないことが判明した。
我々の発見は、GPTモデルとのインタラクションにおいてプライバシーが侵害されることの容易さを強調し、これらのモデルの能力を悪用することを防ぐようコミュニティに促す。
関連論文リスト
- Imposter.AI: Adversarial Attacks with Hidden Intentions towards Aligned Large Language Models [13.225041704917905]
本研究では,大規模言語モデルから有害情報を抽出するために,人間の会話戦略を活かした攻撃機構を明らかにする。
明示的な悪意のある応答をターゲットとする従来の手法とは異なり、我々のアプローチは応答で提供される情報の性質を深く掘り下げている。
論文 参考訳(メタデータ) (2024-07-22T06:04:29Z) - Adversarial Attacks and Defense for Conversation Entailment Task [0.49157446832511503]
大規模言語モデルは、低コストの敵攻撃に対して脆弱である。
我々は、仮説の真偽を正確に識別するために、変圧器モデルを微調整する。
モデルのロバスト性を高めるために,埋め込み摂動損失法を導入する。
論文 参考訳(メタデータ) (2024-05-01T02:49:18Z) - Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - On Zero-Shot Counterspeech Generation by LLMs [23.39818166945086]
対音声生成のためのゼロショット設定において,4つの大規模言語モデル(LLM)の性能を包括的に解析する。
モデルの種類を考えると、GPT-2とFlanT5モデルは対音声品質においてかなり優れている。
ChatGPTは、すべてのメトリクスの他のモデルよりも、カウンタースピーチを生成するのがはるかに優れている。
論文 参考訳(メタデータ) (2024-03-22T04:13:10Z) - Query-Based Adversarial Prompt Generation [67.238873588125]
我々は、アライメント言語モデルが有害な文字列を出力する原因となる敵の例を構築します。
GPT-3.5とOpenAIの安全分類器に対する攻撃を検証する。
論文 参考訳(メタデータ) (2024-02-19T18:01:36Z) - Locally Differentially Private Document Generation Using Zero Shot
Prompting [61.20953109732442]
本稿では,DP-Prompt と呼ばれる局所的に異なるプライベートなメカニズムを提案し,作者の匿名化攻撃に対処する。
DP-PromptをChatGPT(gpt-3.5)のような強力な言語モデルで使用すると、匿名化攻撃の成功率の顕著な低下が観察される。
論文 参考訳(メタデータ) (2023-10-24T18:25:13Z) - On Evaluating Adversarial Robustness of Large Vision-Language Models [64.66104342002882]
大規模視覚言語モデル(VLM)のロバスト性を,最も現実的で高リスクな環境で評価する。
特に,CLIP や BLIP などの事前学習モデルに対して,まず攻撃対象のサンプルを作成する。
これらのVLM上のブラックボックスクエリは、ターゲットの回避の効果をさらに向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T13:49:44Z) - ChatGPT as an Attack Tool: Stealthy Textual Backdoor Attack via Blackbox
Generative Model Trigger [11.622811907571132]
テキストバックドア攻撃は既存のシステムに現実的な脅威をもたらす。
GPT-4のような最先端の生成モデルでは、リライトを異常なレベルに押し上げるため、そのような攻撃はより検出しにくくなっている。
我々は、バックドア攻撃ツールとしてのブラックボックス生成モデルの役割を包括的に調査し、相対防衛戦略の研究の重要性を強調した。
論文 参考訳(メタデータ) (2023-04-27T19:26:25Z) - Defending against Reconstruction Attacks with R\'enyi Differential
Privacy [72.1188520352079]
レコンストラクション攻撃により、敵は訓練されたモデルのみにアクセスすることで、トレーニングセットのデータサンプルを再生することができる。
差別化プライバシはこのような攻撃に対する既知の解決策であるが、比較的大きなプライバシ予算で使用されることが多い。
また、同機構により、従来の文献よりも優れた復元攻撃に対するプライバシー保証を導出できることを示す。
論文 参考訳(メタデータ) (2022-02-15T18:09:30Z) - Adversarial Attack and Defense of Structured Prediction Models [58.49290114755019]
本論文では,NLPにおける構造化予測タスクに対する攻撃と防御について検討する。
構造化予測モデルの構造化出力は、入力中の小さな摂動に敏感である。
本稿では,シーケンス・ツー・シーケンス・モデルを用いて,構造化予測モデルへの攻撃を学習する,新規で統一的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-04T15:54:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。