論文の概要: Conversation Reconstruction Attack Against GPT Models
- arxiv url: http://arxiv.org/abs/2402.02987v1
- Date: Mon, 5 Feb 2024 13:18:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 16:10:55.278339
- Title: Conversation Reconstruction Attack Against GPT Models
- Title(参考訳): GPTモデルに対する会話再構成攻撃
- Authors: Junjie Chu and Zeyang Sha and Michael Backes and Yang Zhang
- Abstract要約: 本稿では,GPTモデルを対象とした会話再構築攻撃について紹介する。
次に、以前の会話をよりよく再構築することを目的とした2つの高度な攻撃を導入する。
以上の結果から,GPTモデルに関わる会話に関連するプライバシーリスクの懸念が浮き彫りになった。
- 参考スコア(独自算出の注目度): 22.862816936466572
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent times, significant advancements have been made in the field of
large language models (LLMs), represented by GPT series models. To optimize
task execution, users often engage in multi-round conversations with GPT models
hosted in cloud environments. These multi-round conversations, potentially
replete with private information, require transmission and storage within the
cloud. However, this operational paradigm introduces additional attack
surfaces. In this paper, we first introduce a specific Conversation
Reconstruction Attack targeting GPT models. Our introduced Conversation
Reconstruction Attack is composed of two steps: hijacking a session and
reconstructing the conversations. Subsequently, we offer an exhaustive
evaluation of the privacy risks inherent in conversations when GPT models are
subjected to the proposed attack. However, GPT-4 demonstrates certain
robustness to the proposed attacks. We then introduce two advanced attacks
aimed at better reconstructing previous conversations, specifically the UNR
attack and the PBU attack. Our experimental findings indicate that the PBU
attack yields substantial performance across all models, achieving semantic
similarity scores exceeding 0.60, while the UNR attack is effective solely on
GPT-3.5. Our results reveal the concern about privacy risks associated with
conversations involving GPT models and aim to draw the community's attention to
prevent the potential misuse of these models' remarkable capabilities. We will
responsibly disclose our findings to the suppliers of related large language
models.
- Abstract(参考訳): 近年,GPTシリーズモデルに代表される大規模言語モデル (LLM) の分野では,大幅な進歩が見られた。
タスク実行を最適化するために、ユーザはクラウド環境にホストされたGPTモデルとマルチラウンドで会話することが多い。
これらの複数ラウンドの会話は、潜在的にプライベートな情報と重複し、クラウド内での送信とストレージを必要とする。
しかし、この作戦パラダイムは追加のアタックサーフェスを導入する。
本稿では,GPTモデルを対象とした特定の会話再構成攻撃について紹介する。
提案した会話再構築攻撃は,セッションをハイジャックし,会話を再構築する2つのステップから構成される。
その後、GPTモデルが提案された攻撃を受けると、会話に固有のプライバシーリスクを徹底的に評価する。
しかし、GPT-4は提案された攻撃に対して一定の堅牢性を示す。
次に,従来の会話,特にUNR攻撃とPBU攻撃の再構築を目的とした2つの高度な攻撃を導入する。
実験結果から,PBU攻撃は全モデルで有意な性能を示し,意味的類似性スコアは0.60を超え,UNR攻撃はGPT-3.5のみに有効であることが示唆された。
以上の結果から,GPTモデルに関わる会話に関連するプライバシーリスクの懸念が浮き彫りになり,これらのモデルが持つ顕著な能力を誤用しないように,コミュニティの注意を引こうとしている。
関連大型言語モデルのサプライヤに対して,当社の調査結果を責任を持って開示します。
関連論文リスト
- Imposter.AI: Adversarial Attacks with Hidden Intentions towards Aligned Large Language Models [13.225041704917905]
本研究では,大規模言語モデルから有害情報を抽出するために,人間の会話戦略を活かした攻撃機構を明らかにする。
明示的な悪意のある応答をターゲットとする従来の手法とは異なり、我々のアプローチは応答で提供される情報の性質を深く掘り下げている。
論文 参考訳(メタデータ) (2024-07-22T06:04:29Z) - Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - Membership Inference Attacks and Privacy in Topic Modeling [3.503833571450681]
トレーニングデータのメンバーを確実に識別できるトピックモデルに対する攻撃を提案する。
本稿では,DP語彙選択を前処理ステップとして組み込んだプライベートトピックモデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T12:43:42Z) - Query-Based Adversarial Prompt Generation [67.238873588125]
我々は、アライメント言語モデルが有害な文字列を出力する原因となる敵の例を構築します。
GPT-3.5とOpenAIの安全分類器に対する攻撃を検証する。
論文 参考訳(メタデータ) (2024-02-19T18:01:36Z) - Opening A Pandora's Box: Things You Should Know in the Era of Custom GPTs [27.97654690288698]
我々はOpenAIによるカスタムGPTプラットフォームから生じるセキュリティとプライバシの問題を包括的に分析する。
本研究は,攻撃シナリオを悪質なアクターの役割に基づいた3つの脅威モデルに分類する。
我々は26の潜在的な攻撃ベクトルを特定し、19は実世界の環境で部分的にまたは完全に検証されている。
論文 参考訳(メタデータ) (2023-12-31T16:49:12Z) - InferDPT: Privacy-Preserving Inference for Black-box Large Language Model [66.07752875835506]
InferDPTは、ブラックボックスLSMのプライバシ保護推論のための最初の実用的なフレームワークである。
RANTEXTはInferDPTの摂動モジュールに組み込まれた新しい微分プライバシー機構である。
論文 参考訳(メタデータ) (2023-10-18T18:00:11Z) - Unveiling Security, Privacy, and Ethical Concerns of ChatGPT [6.588022305382666]
ChatGPTはトピックモデリングと強化学習を使用して自然な応答を生成する。
ChatGPTは、カスタマーサービス、教育、メンタルヘルス治療、個人の生産性、コンテンツ制作など、さまざまな業界で大きな可能性を秘めている。
本稿では,安全で倫理的に健全な大言語モデルの開発を確実にするために,セキュリティ,プライバシ,倫理的問題に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-26T13:45:18Z) - DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT
Models [92.6951708781736]
本稿では,GPT-4とGPT-3.5に着目した大規模言語モデルの総合的信頼性評価を提案する。
GPTモデルは、有害で偏りのある出力を生成し、個人情報を漏らすために、容易に誤解され得る。
我々の研究は、GPTモデルの総合的な信頼性評価を示し、信頼性のギャップに光を当てている。
論文 参考訳(メタデータ) (2023-06-20T17:24:23Z) - On Evaluating Adversarial Robustness of Large Vision-Language Models [64.66104342002882]
大規模視覚言語モデル(VLM)のロバスト性を,最も現実的で高リスクな環境で評価する。
特に,CLIP や BLIP などの事前学習モデルに対して,まず攻撃対象のサンプルを作成する。
これらのVLM上のブラックボックスクエリは、ターゲットの回避の効果をさらに向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T13:49:44Z) - Defending against Reconstruction Attacks with R\'enyi Differential
Privacy [72.1188520352079]
レコンストラクション攻撃により、敵は訓練されたモデルのみにアクセスすることで、トレーニングセットのデータサンプルを再生することができる。
差別化プライバシはこのような攻撃に対する既知の解決策であるが、比較的大きなプライバシ予算で使用されることが多い。
また、同機構により、従来の文献よりも優れた復元攻撃に対するプライバシー保証を導出できることを示す。
論文 参考訳(メタデータ) (2022-02-15T18:09:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。