論文の概要: Can Sensitive Information Be Deleted From LLMs? Objectives for Defending
Against Extraction Attacks
- arxiv url: http://arxiv.org/abs/2309.17410v1
- Date: Fri, 29 Sep 2023 17:12:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-02 12:20:14.987859
- Title: Can Sensitive Information Be Deleted From LLMs? Objectives for Defending
Against Extraction Attacks
- Title(参考訳): LLMから機密情報を削除できるのか?
抽出攻撃に対する防御の目的
- Authors: Vaidehi Patil, Peter Hase, Mohit Bansal
- Abstract要約: 本稿では,モデル重みから直接センシティブな情報を削除する作業を研究するためのアタック・アンド・ディフェンスフレームワークを提案する。
モデル重み付けへの直接的編集について検討する。この手法は、削除された情報が将来的な攻撃によって抽出されないことを保証すべきである。
我々のホワイトボックスやブラックボックス攻撃は、編集されたモデルの38%から「削除された」情報を復元できるので、ROMEのような最先端のモデル編集方法でさえ、GPT-Jのようなモデルから事実情報を真に消し去るのに苦労している。
- 参考スコア(独自算出の注目度): 73.53327403684676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained language models sometimes possess knowledge that we do not wish
them to, including memorized personal information and knowledge that could be
used to harm people. They can also output toxic or harmful text. To mitigate
these safety and informational issues, we propose an attack-and-defense
framework for studying the task of deleting sensitive information directly from
model weights. We study direct edits to model weights because (1) this approach
should guarantee that particular deleted information is never extracted by
future prompt attacks, and (2) it should protect against whitebox attacks,
which is necessary for making claims about safety/privacy in a setting where
publicly available model weights could be used to elicit sensitive information.
Our threat model assumes that an attack succeeds if the answer to a sensitive
question is located among a set of B generated candidates, based on scenarios
where the information would be insecure if the answer is among B candidates.
Experimentally, we show that even state-of-the-art model editing methods such
as ROME struggle to truly delete factual information from models like GPT-J, as
our whitebox and blackbox attacks can recover "deleted" information from an
edited model 38% of the time. These attacks leverage two key observations: (1)
that traces of deleted information can be found in intermediate model hidden
states, and (2) that applying an editing method for one question may not delete
information across rephrased versions of the question. Finally, we provide new
defense methods that protect against some extraction attacks, but we do not
find a single universally effective defense method. Our results suggest that
truly deleting sensitive information is a tractable but difficult problem,
since even relatively low attack success rates have potentially severe societal
implications for real-world deployment of language models.
- Abstract(参考訳): 事前訓練された言語モデルには、人を傷つけることのできる、記憶された個人情報や知識を含む、私たちが望まない知識がある。
有害なテキストや有害なテキストも出力できる。
これらの安全・情報問題を軽減するため,我々は,機密情報をモデル重みから直接削除するタスクを研究するための攻撃・防衛枠組みを提案する。
本研究は,(1) 特定の削除された情報が将来的な攻撃によって抽出されないことを保証すべきであり,(2) 機密情報を引き出すために一般に利用可能なモデルウェイトを用いて,安全・プライバシーの主張を行うために必要なホワイトボックス攻撃に対して保護すべきである。
我々の脅威モデルでは、B候補の答えがB候補の集合内にある場合、B候補の答えがB候補の情報が安全でない場合のシナリオに基づいて攻撃が成功すると仮定する。
実験により,ROMEのような最先端のモデル編集手法でさえ,我々のホワイトボックスやブラックボックス攻撃が編集されたモデルの38%から「削除された」情報を復元できるため,GPT-Jのようなモデルから事実情報を真に削除することは困難であることがわかった。
これらの攻撃は、(1) 削除された情報のトレースが中間モデル隠蔽状態にあること、(2) ある質問に対して編集方法を適用すると、その質問のリフレスされたバージョン間で情報を削除できないこと、の2つの重要な観察を利用する。
最後に、いくつかの抽出攻撃から保護する新たな防御方法を提案するが、普遍的に有効な防衛方法を見いだすことはできない。
攻撃成功率が比較的低い場合でも、言語モデルの現実的な展開に深刻な社会的影響をもたらす可能性があるため、センシティブな情報の削除は困難である。
関連論文リスト
- Do Unlearning Methods Remove Information from Language Model Weights? [0.0]
大規模言語モデルによるサイバーセキュリティ攻撃の実行、バイオ兵器の作成、人間の操作に関する知識は、誤用のリスクを引き起こす。
モデル重みから情報を取り除くための逆評価法を提案する。
現状の未学習手法に適用した場合, アクセシブルな事実を微調整することで, 88%の未学習精度を回復できることを示す。
論文 参考訳(メタデータ) (2024-10-11T14:06:58Z) - REVS: Unlearning Sensitive Information in Language Models via Rank Editing in the Vocabulary Space [35.61862064581971]
大規模言語モデル(LLM)は、トレーニングデータに見られる機密または個人識別可能な情報(PII)を不注意に記憶し、希釈するリスクがある。
LLMから未学習のセンシティブな情報を抽出する新しいモデル編集手法であるREVSを提案する。
論文 参考訳(メタデータ) (2024-06-13T17:02:32Z) - Representation Noising: A Defence Mechanism Against Harmful Finetuning [28.451676139178687]
オープンソースの大規模言語モデル(LLM)のリースは、悪質なアクターがこれらのモデルを有害な目的のために簡単に微調整できるため、デュアルユースリスクをもたらす。
本稿では,攻撃者が重みにアクセスできる場合でも,防御機構であるRepresentation Noising(RepNoise)を提案する。
論文 参考訳(メタデータ) (2024-05-23T13:51:55Z) - Attention-Enhancing Backdoor Attacks Against BERT-based Models [54.070555070629105]
バックドア攻撃の戦略を調べることは、モデルの脆弱性を理解するのに役立つだろう。
本稿では,注意パターンを直接操作することでトロイの木馬行動を向上させる新しいトロイの木馬注意損失(TAL)を提案する。
論文 参考訳(メタデータ) (2023-10-23T01:24:56Z) - Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models [102.63973600144308]
オープンソースの大規模言語モデルは、有害なコンテンツを生成するために容易に変換できる。
5つの異なる組織がリリースした8つのモデルに対する実験は、シャドーアライメントアタックの有効性を実証している。
この研究は、悪意のある攻撃者に対するオープンソースのLLMの安全性を見直し、強化するための集団的な取り組みの発端となる。
論文 参考訳(メタデータ) (2023-10-04T16:39:31Z) - FedDefender: Client-Side Attack-Tolerant Federated Learning [60.576073964874]
フェデレーション学習は、プライバシを損なうことなく、分散化されたデータソースからの学習を可能にする。
悪意のあるクライアントがトレーニングプロセスに干渉する、毒殺攻撃のモデル化には脆弱である。
我々はFedDefenderと呼ばれるクライアントサイドに焦点を当てた新しい防御機構を提案し、クライアントの堅牢なローカルモデルのトレーニングを支援する。
論文 参考訳(メタデータ) (2023-07-18T08:00:41Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - MOVE: Effective and Harmless Ownership Verification via Embedded
External Features [109.19238806106426]
本稿では,異なる種類のモデル盗難を同時に防ぐために,効果的かつ無害なモデル所有者認証(MOVE)を提案する。
我々は、疑わしいモデルがディフェンダー特定外部特徴の知識を含むかどうかを検証し、所有権検証を行う。
特に、包括的モデル保護を提供するために、ホワイトボックスとブラックボックスの両方の設定でMOVE法を開発した。
論文 参考訳(メタデータ) (2022-08-04T02:22:29Z) - Deletion Inference, Reconstruction, and Compliance in Machine
(Un)Learning [21.404426803200796]
機械学習モデルに対するプライバシ攻撃は、そのようなモデルをトレーニングするために使用されるデータを特定することを目的としている。
多くの機械学習メソッドが最近、機械学習をサポートするように拡張されている。
論文 参考訳(メタデータ) (2022-02-07T19:02:58Z) - Amnesiac Machine Learning [15.680008735220785]
最近制定された一般データ保護規則は、欧州連合の居住者に関するデータを持つデータ保有者に影響を与えている。
モデルは、モデル反転攻撃のような情報漏洩攻撃に対して脆弱である。
我々は、モデル所有者が規制に準拠しながら、そのような攻撃から身を守ることのできる、UnlearningとAmnesiac Unlearningの2つのデータ除去方法を提案する。
論文 参考訳(メタデータ) (2020-10-21T13:14:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。