Fugu-MT 論文翻訳(概要): Conversation Reconstruction Attack Against GPT Models

論文の概要: Conversation Reconstruction Attack Against GPT Models

arxiv url: http://arxiv.org/abs/2402.02987v1
Date: Mon, 5 Feb 2024 13:18:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-06 16:10:55.278339
Title: Conversation Reconstruction Attack Against GPT Models
Title（参考訳）: GPTモデルに対する会話再構成攻撃
Authors: Junjie Chu and Zeyang Sha and Michael Backes and Yang Zhang
Abstract要約: 本稿では,GPTモデルを対象とした会話再構築攻撃について紹介する。次に、以前の会話をよりよく再構築することを目的とした2つの高度な攻撃を導入する。以上の結果から,GPTモデルに関わる会話に関連するプライバシーリスクの懸念が浮き彫りになった。
参考スコア（独自算出の注目度）: 22.862816936466572
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In recent times, significant advancements have been made in the field of large language models (LLMs), represented by GPT series models. To optimize task execution, users often engage in multi-round conversations with GPT models hosted in cloud environments. These multi-round conversations, potentially replete with private information, require transmission and storage within the cloud. However, this operational paradigm introduces additional attack surfaces. In this paper, we first introduce a specific Conversation Reconstruction Attack targeting GPT models. Our introduced Conversation Reconstruction Attack is composed of two steps: hijacking a session and reconstructing the conversations. Subsequently, we offer an exhaustive evaluation of the privacy risks inherent in conversations when GPT models are subjected to the proposed attack. However, GPT-4 demonstrates certain robustness to the proposed attacks. We then introduce two advanced attacks aimed at better reconstructing previous conversations, specifically the UNR attack and the PBU attack. Our experimental findings indicate that the PBU attack yields substantial performance across all models, achieving semantic similarity scores exceeding 0.60, while the UNR attack is effective solely on GPT-3.5. Our results reveal the concern about privacy risks associated with conversations involving GPT models and aim to draw the community's attention to prevent the potential misuse of these models' remarkable capabilities. We will responsibly disclose our findings to the suppliers of related large language models.
Abstract（参考訳）: 近年,GPTシリーズモデルに代表される大規模言語モデル (LLM) の分野では,大幅な進歩が見られた。タスク実行を最適化するために、ユーザはクラウド環境にホストされたGPTモデルとマルチラウンドで会話することが多い。これらの複数ラウンドの会話は、潜在的にプライベートな情報と重複し、クラウド内での送信とストレージを必要とする。しかし、この作戦パラダイムは追加のアタックサーフェスを導入する。本稿では,GPTモデルを対象とした特定の会話再構成攻撃について紹介する。提案した会話再構築攻撃は,セッションをハイジャックし,会話を再構築する2つのステップから構成される。その後、GPTモデルが提案された攻撃を受けると、会話に固有のプライバシーリスクを徹底的に評価する。しかし、GPT-4は提案された攻撃に対して一定の堅牢性を示す。次に,従来の会話,特にUNR攻撃とPBU攻撃の再構築を目的とした2つの高度な攻撃を導入する。実験結果から,PBU攻撃は全モデルで有意な性能を示し,意味的類似性スコアは0.60を超え,UNR攻撃はGPT-3.5のみに有効であることが示唆された。以上の結果から,GPTモデルに関わる会話に関連するプライバシーリスクの懸念が浮き彫りになり,これらのモデルが持つ顕著な能力を誤用しないように,コミュニティの注意を引こうとしている。関連大型言語モデルのサプライヤに対して,当社の調査結果を責任を持って開示します。

関連論文リスト

Privacy and Security Threat for OpenAI GPTs [0.0]
OpenAIが2023年11月にリリースされて以来、300万以上のカスタムGPTが作成されている。ディベロッパにとって、命令漏洩攻撃はカスタムGPTにおける命令の知的特性を脅かす。ユーザにとって、カスタムのGPTや統合されたサードパーティサービスによる不要なデータアクセス行動は、重要なプライバシー上の懸念を引き起こす。
論文参考訳（メタデータ） (2025-06-04T14:58:29Z)
Wolf Hidden in Sheep's Conversations: Toward Harmless Data-Based Backdoor Attacks for Jailbreaking Large Language Models [69.11679786018206]
Supervised Fine-tuning (SFT) は、大きな言語モデルと人間の意図を協調させ、ラベル付きタスク固有データでトレーニングする。近年の研究では、悪意のある攻撃者が、有害な質問応答ペアにトリガーを埋め込むことで、これらのモデルにバックドアを注入できることが示されている。脱獄性LLMに対する新しいクリーンデータバックドアアタックを提案する。
論文参考訳（メタデータ） (2025-05-23T08:13:59Z)
Exploring ChatGPT for Face Presentation Attack Detection in Zero and Few-Shot in-Context Learning [6.537257913467247]
本研究では,顔提示検出(PAD)の代替手段としてのChatGPT(特にGPT-4o)の可能性を明らかにする。以上の結果から, GPT-4oは高一貫性を示すことが示唆された。注目すべきは、このモデルは創発的な推論能力を示し、数ショットのシナリオで高い精度で攻撃タイプ(プリントまたはリプレイ)を正確に予測する。
論文参考訳（メタデータ） (2025-01-15T13:46:33Z)
Imposter.AI: Adversarial Attacks with Hidden Intentions towards Aligned Large Language Models [13.225041704917905]
本研究では,大規模言語モデルから有害情報を抽出するために,人間の会話戦略を活かした攻撃機構を明らかにする。明示的な悪意のある応答をターゲットとする従来の手法とは異なり、我々のアプローチは応答で提供される情報の性質を深く掘り下げている。
論文参考訳（メタデータ） (2024-07-22T06:04:29Z)
Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文参考訳（メタデータ） (2024-04-01T16:50:54Z)
Membership Inference Attacks and Privacy in Topic Modeling [3.503833571450681]
トレーニングデータのメンバーを確実に識別できるトピックモデルに対する攻撃を提案する。本稿では,DP語彙選択を前処理ステップとして組み込んだプライベートトピックモデリングフレームワークを提案する。
論文参考訳（メタデータ） (2024-03-07T12:43:42Z)
Query-Based Adversarial Prompt Generation [67.238873588125]
我々は、アライメント言語モデルが有害な文字列を出力する原因となる敵の例を構築します。 GPT-3.5とOpenAIの安全分類器に対する攻撃を検証する。
論文参考訳（メタデータ） (2024-02-19T18:01:36Z)
Opening A Pandora's Box: Things You Should Know in the Era of Custom GPTs [27.97654690288698]
我々はOpenAIによるカスタムGPTプラットフォームから生じるセキュリティとプライバシの問題を包括的に分析する。本研究は,攻撃シナリオを悪質なアクターの役割に基づいた3つの脅威モデルに分類する。我々は26の潜在的な攻撃ベクトルを特定し、19は実世界の環境で部分的にまたは完全に検証されている。
論文参考訳（メタデータ） (2023-12-31T16:49:12Z)
InferDPT: Privacy-Preserving Inference for Black-box Large Language Model [66.07752875835506]
InferDPTは、ブラックボックスLSMのプライバシ保護推論のための最初の実用的なフレームワークである。 RANTEXTはInferDPTの摂動モジュールに組み込まれた新しい微分プライバシー機構である。
論文参考訳（メタデータ） (2023-10-18T18:00:11Z)
Unveiling Security, Privacy, and Ethical Concerns of ChatGPT [6.588022305382666]
ChatGPTはトピックモデリングと強化学習を使用して自然な応答を生成する。 ChatGPTは、カスタマーサービス、教育、メンタルヘルス治療、個人の生産性、コンテンツ制作など、さまざまな業界で大きな可能性を秘めている。本稿では,安全で倫理的に健全な大言語モデルの開発を確実にするために,セキュリティ,プライバシ,倫理的問題に焦点をあてる。
論文参考訳（メタデータ） (2023-07-26T13:45:18Z)
DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models [92.6951708781736]
本稿では,GPT-4とGPT-3.5に着目した大規模言語モデルの総合的信頼性評価を提案する。 GPTモデルは、有害で偏りのある出力を生成し、個人情報を漏らすために、容易に誤解され得る。我々の研究は、GPTモデルの総合的な信頼性評価を示し、信頼性のギャップに光を当てている。
論文参考訳（メタデータ） (2023-06-20T17:24:23Z)
On Evaluating Adversarial Robustness of Large Vision-Language Models [64.66104342002882]
大規模視覚言語モデル(VLM)のロバスト性を,最も現実的で高リスクな環境で評価する。特に,CLIP や BLIP などの事前学習モデルに対して,まず攻撃対象のサンプルを作成する。これらのVLM上のブラックボックスクエリは、ターゲットの回避の効果をさらに向上させることができる。
論文参考訳（メタデータ） (2023-05-26T13:49:44Z)
Defending against Reconstruction Attacks with R\'enyi Differential Privacy [72.1188520352079]
レコンストラクション攻撃により、敵は訓練されたモデルのみにアクセスすることで、トレーニングセットのデータサンプルを再生することができる。差別化プライバシはこのような攻撃に対する既知の解決策であるが、比較的大きなプライバシ予算で使用されることが多い。また、同機構により、従来の文献よりも優れた復元攻撃に対するプライバシー保証を導出できることを示す。
論文参考訳（メタデータ） (2022-02-15T18:09:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。