論文の概要: Reconstruct Your Previous Conversations! Comprehensively Investigating Privacy Leakage Risks in Conversations with GPT Models
- arxiv url: http://arxiv.org/abs/2402.02987v2
- Date: Mon, 07 Oct 2024 12:11:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 18:00:56.394047
- Title: Reconstruct Your Previous Conversations! Comprehensively Investigating Privacy Leakage Risks in Conversations with GPT Models
- Title(参考訳): 事前会話の再構築! GPTモデルを用いた会話におけるプライバシー漏洩リスクの総合的調査
- Authors: Junjie Chu, Zeyang Sha, Michael Backes, Yang Zhang,
- Abstract要約: GPTモデルはタスク最適化にますます利用されている。
本稿では,直接的かつ強力な会話再構築攻撃について紹介する。
過去の会話の再構築をめざした2つの先進的な攻撃を提示する。
- 参考スコア(独自算出の注目度): 20.92843974858305
- License:
- Abstract: Significant advancements have recently been made in large language models represented by GPT models. Users frequently have multi-round private conversations with cloud-hosted GPT models for task optimization. Yet, this operational paradigm introduces additional attack surfaces, particularly in custom GPTs and hijacked chat sessions. In this paper, we introduce a straightforward yet potent Conversation Reconstruction Attack. This attack targets the contents of previous conversations between GPT models and benign users, i.e., the benign users' input contents during their interaction with GPT models. The adversary could induce GPT models to leak such contents by querying them with designed malicious prompts. Our comprehensive examination of privacy risks during the interactions with GPT models under this attack reveals GPT-4's considerable resilience. We present two advanced attacks targeting improved reconstruction of past conversations, demonstrating significant privacy leakage across all models under these advanced techniques. Evaluating various defense mechanisms, we find them ineffective against these attacks. Our findings highlight the ease with which privacy can be compromised in interactions with GPT models, urging the community to safeguard against potential abuses of these models' capabilities.
- Abstract(参考訳): GPTモデルで表される大きな言語モデルにおいて、近年重要な進歩がなされている。
タスク最適化のために、クラウドでホストされたGPTモデルと複数ラウンドのプライベートな会話をすることが多い。
しかし、この運用パラダイムは、特にカスタムGPTやハイジャックされたチャットセッションにおいて、追加のアタックサーフェスを導入している。
本稿では,直接的かつ強力な会話再構築攻撃について紹介する。
この攻撃は、GPTモデルと良性ユーザ間の以前の会話の内容、すなわち、GPTモデルとのインタラクション中に良性ユーザの入力内容をターゲットにしている。
敵は、デザインされた悪意のあるプロンプトでそれらをクエリすることで、GPTモデルにそのようなコンテンツをリークさせることができる。
本攻撃下でのGPTモデルとの相互作用におけるプライバシーリスクの包括的検討により,GPT-4の相当なレジリエンスが明らかとなった。
本稿では,過去の会話の再構築を目標とした2つの高度な攻撃について述べる。
様々な防御機構を評価したところ、これらの攻撃に対して効果がないことが判明した。
我々の発見は、GPTモデルとのインタラクションにおいてプライバシーが侵害されることの容易さを強調し、これらのモデルの能力を悪用することを防ぐようコミュニティに促す。
関連論文リスト
- Imposter.AI: Adversarial Attacks with Hidden Intentions towards Aligned Large Language Models [13.225041704917905]
本研究では,大規模言語モデルから有害情報を抽出するために,人間の会話戦略を活かした攻撃機構を明らかにする。
明示的な悪意のある応答をターゲットとする従来の手法とは異なり、我々のアプローチは応答で提供される情報の性質を深く掘り下げている。
論文 参考訳(メタデータ) (2024-07-22T06:04:29Z) - Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - Membership Inference Attacks and Privacy in Topic Modeling [3.503833571450681]
トレーニングデータのメンバーを確実に識別できるトピックモデルに対する攻撃を提案する。
本稿では,DP語彙選択を前処理ステップとして組み込んだプライベートトピックモデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T12:43:42Z) - Query-Based Adversarial Prompt Generation [67.238873588125]
我々は、アライメント言語モデルが有害な文字列を出力する原因となる敵の例を構築します。
GPT-3.5とOpenAIの安全分類器に対する攻撃を検証する。
論文 参考訳(メタデータ) (2024-02-19T18:01:36Z) - Opening A Pandora's Box: Things You Should Know in the Era of Custom GPTs [27.97654690288698]
我々はOpenAIによるカスタムGPTプラットフォームから生じるセキュリティとプライバシの問題を包括的に分析する。
本研究は,攻撃シナリオを悪質なアクターの役割に基づいた3つの脅威モデルに分類する。
我々は26の潜在的な攻撃ベクトルを特定し、19は実世界の環境で部分的にまたは完全に検証されている。
論文 参考訳(メタデータ) (2023-12-31T16:49:12Z) - InferDPT: Privacy-Preserving Inference for Black-box Large Language Model [66.07752875835506]
InferDPTは、ブラックボックスLSMのプライバシ保護推論のための最初の実用的なフレームワークである。
RANTEXTはInferDPTの摂動モジュールに組み込まれた新しい微分プライバシー機構である。
論文 参考訳(メタデータ) (2023-10-18T18:00:11Z) - Unveiling Security, Privacy, and Ethical Concerns of ChatGPT [6.588022305382666]
ChatGPTはトピックモデリングと強化学習を使用して自然な応答を生成する。
ChatGPTは、カスタマーサービス、教育、メンタルヘルス治療、個人の生産性、コンテンツ制作など、さまざまな業界で大きな可能性を秘めている。
本稿では,安全で倫理的に健全な大言語モデルの開発を確実にするために,セキュリティ,プライバシ,倫理的問題に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-26T13:45:18Z) - DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT
Models [92.6951708781736]
本稿では,GPT-4とGPT-3.5に着目した大規模言語モデルの総合的信頼性評価を提案する。
GPTモデルは、有害で偏りのある出力を生成し、個人情報を漏らすために、容易に誤解され得る。
我々の研究は、GPTモデルの総合的な信頼性評価を示し、信頼性のギャップに光を当てている。
論文 参考訳(メタデータ) (2023-06-20T17:24:23Z) - On Evaluating Adversarial Robustness of Large Vision-Language Models [64.66104342002882]
大規模視覚言語モデル(VLM)のロバスト性を,最も現実的で高リスクな環境で評価する。
特に,CLIP や BLIP などの事前学習モデルに対して,まず攻撃対象のサンプルを作成する。
これらのVLM上のブラックボックスクエリは、ターゲットの回避の効果をさらに向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T13:49:44Z) - Defending against Reconstruction Attacks with R\'enyi Differential
Privacy [72.1188520352079]
レコンストラクション攻撃により、敵は訓練されたモデルのみにアクセスすることで、トレーニングセットのデータサンプルを再生することができる。
差別化プライバシはこのような攻撃に対する既知の解決策であるが、比較的大きなプライバシ予算で使用されることが多い。
また、同機構により、従来の文献よりも優れた復元攻撃に対するプライバシー保証を導出できることを示す。
論文 参考訳(メタデータ) (2022-02-15T18:09:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。