論文の概要: Reconstruction of Differentially Private Text Sanitization via Large Language Models
- arxiv url: http://arxiv.org/abs/2410.12443v1
- Date: Wed, 16 Oct 2024 10:41:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:44:34.315521
- Title: Reconstruction of Differentially Private Text Sanitization via Large Language Models
- Title(参考訳): 大規模言語モデルによる個人用テキスト衛生化の再構築
- Authors: Shuchao Pang, Zhigang Lu, Haichen Wang, Peng Fu, Yongbin Zhou, Minhui Xue, Bo Li,
- Abstract要約: 大規模言語モデル(LLM)は、DP対応のプロンプトから変更/削除されたプライバシを再構築することができる。
LLMのアクセシビリティに基づいた2つの攻撃(ブラックボックスとホワイトボックス)を提案する。
本研究は、これらの有名なLCMが、既存のDPテキストサニタイズアプローチの新たなセキュリティリスクとして出現したことを示唆している。
- 参考スコア(独自算出の注目度): 18.39229583761934
- License:
- Abstract: Differential privacy (DP) is the de facto privacy standard against privacy leakage attacks, including many recently discovered ones against large language models (LLMs). However, we discovered that LLMs could reconstruct the altered/removed privacy from given DP-sanitized prompts. We propose two attacks (black-box and white-box) based on the accessibility to LLMs and show that LLMs could connect the pair of DP-sanitized text and the corresponding private training data of LLMs by giving sample text pairs as instructions (in the black-box attacks) or fine-tuning data (in the white-box attacks). To illustrate our findings, we conduct comprehensive experiments on modern LLMs (e.g., LLaMA-2, LLaMA-3, ChatGPT-3.5, ChatGPT-4, ChatGPT-4o, Claude-3, Claude-3.5, OPT, GPT-Neo, GPT-J, Gemma-2, and Pythia) using commonly used datasets (such as WikiMIA, Pile-CC, and Pile-Wiki) against both word-level and sentence-level DP. The experimental results show promising recovery rates, e.g., the black-box attacks against the word-level DP over WikiMIA dataset gave 72.18% on LLaMA-2 (70B), 82.39% on LLaMA-3 (70B), 75.35% on Gemma-2, 91.2% on ChatGPT-4o, and 94.01% on Claude-3.5 (Sonnet). More urgently, this study indicates that these well-known LLMs have emerged as a new security risk for existing DP text sanitization approaches in the current environment.
- Abstract(参考訳): 差別化プライバシ(DP)は、プライバシ漏洩攻撃に対する事実上のプライバシ標準である。
しかし, LLM は DP を消毒したプロンプトから, 変更・削除したプライバシを再構築できることが判明した。
LLMへのアクセシビリティに基づいた2つの攻撃(ブラックボックスとホワイトボックス)を提案し、サンプルテキストペアを指示(ブラックボックス攻撃)や微調整データ(ホワイトボックス攻撃)として与えることで、LCMがDP対応テキストとそれに対応するプライベートトレーニングデータとを接続可能であることを示す。
本研究は,現代LPM(例: LLaMA-2, LLaMA-3, ChatGPT-3.5, ChatGPT-4, ChatGPT-4o, Claude-3, Claude-3.5, OPT, GPT-Neo, GPT-J, Gemma-2, Pythia)において,単語レベルと文レベルのDPに対して一般的に使用されるデータセット(WikiMIA, Pile-CC, Pile-Wiki)を用いて包括的な実験を行った。
実験の結果、WikiMIAデータセットに対する単語レベルDPに対するブラックボックス攻撃は、LLaMA-2 (70B) では72.18%、LLaMA-3 (70B) では82.39%、Gemma-2 (70B) では75.35%、ChatGPT-4o では91.2%、Claude-3.5 (Sonnet) では94.01%であった。
より緊急に、これらの有名なLCMが、現在の環境における既存のDPテキスト衛生化アプローチの新たなセキュリティリスクとして出現したことを示唆する。
関連論文リスト
- DefAn: Definitive Answer Dataset for LLMs Hallucination Evaluation [39.857198257988685]
大規模言語モデル(LLM)は、日常生活のアプリケーションにおけるAIの統合に革命をもたらしている。
彼らは幻覚を起こしやすく、確立した事実に矛盾する主張を生じさせ、同じプロンプトが複数回提示されたときに矛盾する反応を生じさせる。
本稿では,8つの領域にまたがる75,000以上のプロンプトからなる総合ベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2024-06-13T14:18:13Z) - PARDEN, Can You Repeat That? Defending against Jailbreaks via Repetition [10.476666078206783]
大規模言語モデル(LLM)は多くの自然言語処理タスクで成功している。
Llama 2やClaude 2のような安全アライメントのLLMは、厳格な安全アライメントプロセスにもかかわらず、今でもジェイルブレイクの影響を受けやすい。
PARDENは、単にモデルに自身の出力を繰り返すように頼み、ドメインシフトを避ける。
論文 参考訳(メタデータ) (2024-05-13T17:08:42Z) - LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement [79.31084387589968]
事前訓練された大規模言語モデル(LLM)は、現在、自然言語処理タスクの大部分を解決するための最先端技術である。
LLM2LLMは、教師のLLMを使って小さなシードデータセットを強化するデータ拡張戦略である。
GSM8Kデータセットでは最大24.2%、CaseHOLDでは32.6%、SNIPSでは32.0%、TRECでは52.6%、SST-2では39.8%の改善が達成された。
論文 参考訳(メタデータ) (2024-03-22T08:57:07Z) - Differentially Private Synthetic Data via Foundation Model APIs 2: Text [56.13240830670327]
現実世界で生成された高品質なテキストデータはプライベートであり、プライバシー上の懸念から自由に共有したり、利用したりすることはできない。
テキストの複雑な設定に適用可能な拡張PEアルゴリズムであるAug-PEを提案する。
その結果, Aug-PE は SOTA DP の微調整ベースラインと競合する DP 合成テキストを生成することがわかった。
論文 参考訳(メタデータ) (2024-03-04T05:57:50Z) - NoMIRACL: Knowing When You Don't Know for Robust Multilingual
Retrieval-Augmented Generation [92.5132418788568]
Retrieval-augmented Generation (RAG) は、外部の知識ソースを活用して、事実の幻覚を減らすことで、大きな言語モデル(LLM)を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
1) 幻覚率, 解答の幻覚傾向, 解答が非関連部分集合の通路に存在しない場合, および(ii) 誤差率, モデル不正確さを測定し, 関連する部分集合の通路を認識する。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - Goal-Oriented Prompt Attack and Safety Evaluation for LLMs [43.93613764464993]
高品質なプロンプト攻撃サンプルを構築するパイプラインと、CPADと呼ばれる中国のプロンプト攻撃データセットを導入する。
我々のプロンプトは、慎重に設計されたいくつかのプロンプトアタックテンプレートで、予期せぬ出力を生成するためにLSMを誘導することを目的としている。
GPT-3.5に対する攻撃成功率は70%程度であった。
論文 参考訳(メタデータ) (2023-09-21T07:07:49Z) - Statistical Knowledge Assessment for Large Language Models [79.07989821512128]
ファクトイドの問題に関する様々なプロンプトを考慮すれば、大きな言語モデル(LLM)は事実的に正しい答えを確実に生成できるだろうか?
LLMの事実知識を評価する統計的手法であるKaRRを提案する。
この結果から,同じバックボーン構造を持つLLMの知識はスケーリング法則に則っており,命令追従データに基づくチューニングは,実際に正しいテキストを確実に生成するモデルの能力を損なう場合があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T18:54:37Z) - Multi-step Jailbreaking Privacy Attacks on ChatGPT [47.10284364632862]
我々は,OpenAI の ChatGPT と ChatGPT によって強化された New Bing のプライバシー上の脅威について検討した。
我々は、当社の主張を裏付ける広範な実験を行い、LLMのプライバシーへの影響について論じる。
論文 参考訳(メタデータ) (2023-04-11T13:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。