論文の概要: Can Sensitive Information Be Deleted From LLMs? Objectives for Defending
Against Extraction Attacks
- arxiv url: http://arxiv.org/abs/2309.17410v1
- Date: Fri, 29 Sep 2023 17:12:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-02 12:20:14.987859
- Title: Can Sensitive Information Be Deleted From LLMs? Objectives for Defending
Against Extraction Attacks
- Title(参考訳): LLMから機密情報を削除できるのか?
抽出攻撃に対する防御の目的
- Authors: Vaidehi Patil, Peter Hase, Mohit Bansal
- Abstract要約: 本稿では,モデル重みから直接センシティブな情報を削除する作業を研究するためのアタック・アンド・ディフェンスフレームワークを提案する。
モデル重み付けへの直接的編集について検討する。この手法は、削除された情報が将来的な攻撃によって抽出されないことを保証すべきである。
我々のホワイトボックスやブラックボックス攻撃は、編集されたモデルの38%から「削除された」情報を復元できるので、ROMEのような最先端のモデル編集方法でさえ、GPT-Jのようなモデルから事実情報を真に消し去るのに苦労している。
- 参考スコア(独自算出の注目度): 73.53327403684676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained language models sometimes possess knowledge that we do not wish
them to, including memorized personal information and knowledge that could be
used to harm people. They can also output toxic or harmful text. To mitigate
these safety and informational issues, we propose an attack-and-defense
framework for studying the task of deleting sensitive information directly from
model weights. We study direct edits to model weights because (1) this approach
should guarantee that particular deleted information is never extracted by
future prompt attacks, and (2) it should protect against whitebox attacks,
which is necessary for making claims about safety/privacy in a setting where
publicly available model weights could be used to elicit sensitive information.
Our threat model assumes that an attack succeeds if the answer to a sensitive
question is located among a set of B generated candidates, based on scenarios
where the information would be insecure if the answer is among B candidates.
Experimentally, we show that even state-of-the-art model editing methods such
as ROME struggle to truly delete factual information from models like GPT-J, as
our whitebox and blackbox attacks can recover "deleted" information from an
edited model 38% of the time. These attacks leverage two key observations: (1)
that traces of deleted information can be found in intermediate model hidden
states, and (2) that applying an editing method for one question may not delete
information across rephrased versions of the question. Finally, we provide new
defense methods that protect against some extraction attacks, but we do not
find a single universally effective defense method. Our results suggest that
truly deleting sensitive information is a tractable but difficult problem,
since even relatively low attack success rates have potentially severe societal
implications for real-world deployment of language models.
- Abstract(参考訳): 事前訓練された言語モデルには、人を傷つけることのできる、記憶された個人情報や知識を含む、私たちが望まない知識がある。
有害なテキストや有害なテキストも出力できる。
これらの安全・情報問題を軽減するため,我々は,機密情報をモデル重みから直接削除するタスクを研究するための攻撃・防衛枠組みを提案する。
本研究は,(1) 特定の削除された情報が将来的な攻撃によって抽出されないことを保証すべきであり,(2) 機密情報を引き出すために一般に利用可能なモデルウェイトを用いて,安全・プライバシーの主張を行うために必要なホワイトボックス攻撃に対して保護すべきである。
我々の脅威モデルでは、B候補の答えがB候補の集合内にある場合、B候補の答えがB候補の情報が安全でない場合のシナリオに基づいて攻撃が成功すると仮定する。
実験により,ROMEのような最先端のモデル編集手法でさえ,我々のホワイトボックスやブラックボックス攻撃が編集されたモデルの38%から「削除された」情報を復元できるため,GPT-Jのようなモデルから事実情報を真に削除することは困難であることがわかった。
これらの攻撃は、(1) 削除された情報のトレースが中間モデル隠蔽状態にあること、(2) ある質問に対して編集方法を適用すると、その質問のリフレスされたバージョン間で情報を削除できないこと、の2つの重要な観察を利用する。
最後に、いくつかの抽出攻撃から保護する新たな防御方法を提案するが、普遍的に有効な防衛方法を見いだすことはできない。
攻撃成功率が比較的低い場合でも、言語モデルの現実的な展開に深刻な社会的影響をもたらす可能性があるため、センシティブな情報の削除は困難である。
関連論文リスト
- Leveraging the Context through Multi-Round Interactions for Jailbreaking
Attacks [60.7432588386185]
大規模言語モデル(LLM)は、脱獄攻撃の影響を受けやすい。
脱獄攻撃は、攻撃クエリを微調整することで有害な情報を抽出することを目的としている。
我々は、コンテキストインタラクションアタックと呼ばれる新しい攻撃形式に焦点を当てる。
論文 参考訳(メタデータ) (2024-02-14T13:45:19Z) - Attention-Enhancing Backdoor Attacks Against BERT-based Models [54.070555070629105]
バックドア攻撃の戦略を調べることは、モデルの脆弱性を理解するのに役立つだろう。
本稿では,注意パターンを直接操作することでトロイの木馬行動を向上させる新しいトロイの木馬注意損失(TAL)を提案する。
論文 参考訳(メタデータ) (2023-10-23T01:24:56Z) - Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models [102.63973600144308]
オープンソースの大規模言語モデルは、有害なコンテンツを生成するために容易に変換できる。
5つの異なる組織がリリースした8つのモデルに対する実験は、シャドーアライメントアタックの有効性を実証している。
この研究は、悪意のある攻撃者に対するオープンソースのLLMの安全性を見直し、強化するための集団的な取り組みの発端となる。
論文 参考訳(メタデータ) (2023-10-04T16:39:31Z) - Knowledge Sanitization of Large Language Models [4.722882736419499]
大規模な言語モデル(LLM)は、大量のWebデータをトレーニングすることで、機密情報や機密情報を明らかにする可能性がある。
我々の手法はローランド適応法(LoRA)を用いてこれらのモデルを効率的に微調整する。
クローズドブック質問応答タスクによる実験結果から,本手法は知識リークを最小限に抑えるだけでなく,LLMの全体的な性能も維持できることがわかった。
論文 参考訳(メタデータ) (2023-09-21T07:49:55Z) - FedDefender: Client-Side Attack-Tolerant Federated Learning [60.576073964874]
フェデレーション学習は、プライバシを損なうことなく、分散化されたデータソースからの学習を可能にする。
悪意のあるクライアントがトレーニングプロセスに干渉する、毒殺攻撃のモデル化には脆弱である。
我々はFedDefenderと呼ばれるクライアントサイドに焦点を当てた新しい防御機構を提案し、クライアントの堅牢なローカルモデルのトレーニングを支援する。
論文 参考訳(メタデータ) (2023-07-18T08:00:41Z) - MOVE: Effective and Harmless Ownership Verification via Embedded
External Features [109.19238806106426]
本稿では,異なる種類のモデル盗難を同時に防ぐために,効果的かつ無害なモデル所有者認証(MOVE)を提案する。
我々は、疑わしいモデルがディフェンダー特定外部特徴の知識を含むかどうかを検証し、所有権検証を行う。
特に、包括的モデル保護を提供するために、ホワイトボックスとブラックボックスの両方の設定でMOVE法を開発した。
論文 参考訳(メタデータ) (2022-08-04T02:22:29Z) - Deletion Inference, Reconstruction, and Compliance in Machine
(Un)Learning [21.404426803200796]
機械学習モデルに対するプライバシ攻撃は、そのようなモデルをトレーニングするために使用されるデータを特定することを目的としている。
多くの機械学習メソッドが最近、機械学習をサポートするように拡張されている。
論文 参考訳(メタデータ) (2022-02-07T19:02:58Z) - Adversarial Targeted Forgetting in Regularization and Generative Based
Continual Learning Models [2.8021833233819486]
継続的(あるいはインクリメンタル)な学習アプローチは、その後のバッチやストリーミングデータから追加の知識やタスクを学ぶ必要がある場合に使用される。
知的敵は、既存の知識を時間とともに保持する連続学習アルゴリズムの能力を活用できることを示す。
敵は、そのタスクのテストインスタンスに慎重に設計されたバックドアサンプルを挿入することで、任意のタスクについて「偽のメモリ」を作成できることを示します。
論文 参考訳(メタデータ) (2021-02-16T18:45:01Z) - Amnesiac Machine Learning [15.680008735220785]
最近制定された一般データ保護規則は、欧州連合の居住者に関するデータを持つデータ保有者に影響を与えている。
モデルは、モデル反転攻撃のような情報漏洩攻撃に対して脆弱である。
我々は、モデル所有者が規制に準拠しながら、そのような攻撃から身を守ることのできる、UnlearningとAmnesiac Unlearningの2つのデータ除去方法を提案する。
論文 参考訳(メタデータ) (2020-10-21T13:14:17Z) - Explain2Attack: Text Adversarial Attacks via Cross-Domain
Interpretability [18.92690624514601]
研究によると、下流のモデルは、トレーニングデータのような敵対的な入力で簡単に騙されるが、わずかに混乱している。
本稿では,テキスト分類タスクに対するブラックボックス攻撃であるExplain2Attackを提案する。
我々のフレームワークは、最先端モデルのアタックレートを達成または上回る一方、クエリコストの低減と効率の向上を図っている。
論文 参考訳(メタデータ) (2020-10-14T04:56:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。