論文の概要: Conversation Reconstruction Attack Against GPT Models
- arxiv url: http://arxiv.org/abs/2402.02987v1
- Date: Mon, 5 Feb 2024 13:18:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 16:10:55.278339
- Title: Conversation Reconstruction Attack Against GPT Models
- Title(参考訳): GPTモデルに対する会話再構成攻撃
- Authors: Junjie Chu and Zeyang Sha and Michael Backes and Yang Zhang
- Abstract要約: 本稿では,GPTモデルを対象とした会話再構築攻撃について紹介する。
次に、以前の会話をよりよく再構築することを目的とした2つの高度な攻撃を導入する。
以上の結果から,GPTモデルに関わる会話に関連するプライバシーリスクの懸念が浮き彫りになった。
- 参考スコア(独自算出の注目度): 22.862816936466572
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent times, significant advancements have been made in the field of
large language models (LLMs), represented by GPT series models. To optimize
task execution, users often engage in multi-round conversations with GPT models
hosted in cloud environments. These multi-round conversations, potentially
replete with private information, require transmission and storage within the
cloud. However, this operational paradigm introduces additional attack
surfaces. In this paper, we first introduce a specific Conversation
Reconstruction Attack targeting GPT models. Our introduced Conversation
Reconstruction Attack is composed of two steps: hijacking a session and
reconstructing the conversations. Subsequently, we offer an exhaustive
evaluation of the privacy risks inherent in conversations when GPT models are
subjected to the proposed attack. However, GPT-4 demonstrates certain
robustness to the proposed attacks. We then introduce two advanced attacks
aimed at better reconstructing previous conversations, specifically the UNR
attack and the PBU attack. Our experimental findings indicate that the PBU
attack yields substantial performance across all models, achieving semantic
similarity scores exceeding 0.60, while the UNR attack is effective solely on
GPT-3.5. Our results reveal the concern about privacy risks associated with
conversations involving GPT models and aim to draw the community's attention to
prevent the potential misuse of these models' remarkable capabilities. We will
responsibly disclose our findings to the suppliers of related large language
models.
- Abstract(参考訳): 近年,GPTシリーズモデルに代表される大規模言語モデル (LLM) の分野では,大幅な進歩が見られた。
タスク実行を最適化するために、ユーザはクラウド環境にホストされたGPTモデルとマルチラウンドで会話することが多い。
これらの複数ラウンドの会話は、潜在的にプライベートな情報と重複し、クラウド内での送信とストレージを必要とする。
しかし、この作戦パラダイムは追加のアタックサーフェスを導入する。
本稿では,GPTモデルを対象とした特定の会話再構成攻撃について紹介する。
提案した会話再構築攻撃は,セッションをハイジャックし,会話を再構築する2つのステップから構成される。
その後、GPTモデルが提案された攻撃を受けると、会話に固有のプライバシーリスクを徹底的に評価する。
しかし、GPT-4は提案された攻撃に対して一定の堅牢性を示す。
次に,従来の会話,特にUNR攻撃とPBU攻撃の再構築を目的とした2つの高度な攻撃を導入する。
実験結果から,PBU攻撃は全モデルで有意な性能を示し,意味的類似性スコアは0.60を超え,UNR攻撃はGPT-3.5のみに有効であることが示唆された。
以上の結果から,GPTモデルに関わる会話に関連するプライバシーリスクの懸念が浮き彫りになり,これらのモデルが持つ顕著な能力を誤用しないように,コミュニティの注意を引こうとしている。
関連大型言語モデルのサプライヤに対して,当社の調査結果を責任を持って開示します。
関連論文リスト
- Adversarial Attacks and Defense for Conversation Entailment Task [0.49157446832511503]
大規模言語モデルは、低コストの敵攻撃に対して脆弱である。
我々は、仮説の真偽を正確に識別するために、変圧器モデルを微調整する。
モデルのロバスト性を高めるために,埋め込み摂動損失法を導入する。
論文 参考訳(メタデータ) (2024-05-01T02:49:18Z) - Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - On Zero-Shot Counterspeech Generation by LLMs [23.39818166945086]
対音声生成のためのゼロショット設定において,4つの大規模言語モデル(LLM)の性能を包括的に解析する。
モデルの種類を考えると、GPT-2とFlanT5モデルは対音声品質においてかなり優れている。
ChatGPTは、すべてのメトリクスの他のモデルよりも、カウンタースピーチを生成するのがはるかに優れている。
論文 参考訳(メタデータ) (2024-03-22T04:13:10Z) - Membership Inference Attacks and Privacy in Topic Modeling [3.9379577980832843]
トレーニングデータのメンバーを確実に識別できるトピックモデルに対する攻撃を提案する。
本稿では,DP語彙選択を前処理ステップとして組み込んだプライベートトピックモデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T12:43:42Z) - Query-Based Adversarial Prompt Generation [67.238873588125]
我々は、アライメント言語モデルが有害な文字列を出力する原因となる敵の例を構築します。
GPT-3.5とOpenAIの安全分類器に対する攻撃を検証する。
論文 参考訳(メタデータ) (2024-02-19T18:01:36Z) - Locally Differentially Private Document Generation Using Zero Shot
Prompting [61.20953109732442]
本稿では,DP-Prompt と呼ばれる局所的に異なるプライベートなメカニズムを提案し,作者の匿名化攻撃に対処する。
DP-PromptをChatGPT(gpt-3.5)のような強力な言語モデルで使用すると、匿名化攻撃の成功率の顕著な低下が観察される。
論文 参考訳(メタデータ) (2023-10-24T18:25:13Z) - On Evaluating Adversarial Robustness of Large Vision-Language Models [64.66104342002882]
大規模視覚言語モデル(VLM)のロバスト性を,最も現実的で高リスクな環境で評価する。
特に,CLIP や BLIP などの事前学習モデルに対して,まず攻撃対象のサンプルを作成する。
これらのVLM上のブラックボックスクエリは、ターゲットの回避の効果をさらに向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T13:49:44Z) - ChatGPT as an Attack Tool: Stealthy Textual Backdoor Attack via Blackbox
Generative Model Trigger [11.622811907571132]
テキストバックドア攻撃は既存のシステムに現実的な脅威をもたらす。
GPT-4のような最先端の生成モデルでは、リライトを異常なレベルに押し上げるため、そのような攻撃はより検出しにくくなっている。
我々は、バックドア攻撃ツールとしてのブラックボックス生成モデルの役割を包括的に調査し、相対防衛戦略の研究の重要性を強調した。
論文 参考訳(メタデータ) (2023-04-27T19:26:25Z) - Defending against Reconstruction Attacks with R\'enyi Differential
Privacy [72.1188520352079]
レコンストラクション攻撃により、敵は訓練されたモデルのみにアクセスすることで、トレーニングセットのデータサンプルを再生することができる。
差別化プライバシはこのような攻撃に対する既知の解決策であるが、比較的大きなプライバシ予算で使用されることが多い。
また、同機構により、従来の文献よりも優れた復元攻撃に対するプライバシー保証を導出できることを示す。
論文 参考訳(メタデータ) (2022-02-15T18:09:30Z) - Adversarial Attack and Defense of Structured Prediction Models [58.49290114755019]
本論文では,NLPにおける構造化予測タスクに対する攻撃と防御について検討する。
構造化予測モデルの構造化出力は、入力中の小さな摂動に敏感である。
本稿では,シーケンス・ツー・シーケンス・モデルを用いて,構造化予測モデルへの攻撃を学習する,新規で統一的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-04T15:54:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。