論文の概要: Do Unlearning Methods Remove Information from Language Model Weights?
- arxiv url: http://arxiv.org/abs/2410.08827v1
- Date: Fri, 11 Oct 2024 14:06:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 21:45:38.134539
- Title: Do Unlearning Methods Remove Information from Language Model Weights?
- Title(参考訳): アンラーニング手法は言語モデル重みから情報を除去するか?
- Authors: Aghyad Deeb, Fabien Roger,
- Abstract要約: 大規模言語モデルによるサイバーセキュリティ攻撃の実行、バイオ兵器の作成、人間の操作に関する知識は、誤用のリスクを引き起こす。
モデル重みから情報を取り除くための逆評価法を提案する。
現状の未学習手法に適用した場合, アクセシブルな事実を微調整することで, 88%の未学習精度を回復できることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models' knowledge of how to perform cyber-security attacks, create bioweapons, and manipulate humans poses risks of misuse. Previous work has proposed methods to unlearn this knowledge. Historically, it has been unclear whether unlearning techniques are removing information from the model weights or just making it harder to access. To disentangle these two objectives, we propose an adversarial evaluation method to test for the removal of information from model weights: we give an attacker access to some facts that were supposed to be removed, and using those, the attacker tries to recover other facts from the same distribution that cannot be guessed from the accessible facts. We show that using fine-tuning on the accessible facts can recover 88% of the pre-unlearning accuracy when applied to current unlearning methods, revealing the limitations of these methods in removing information from the model weights.
- Abstract(参考訳): 大規模言語モデルによるサイバーセキュリティ攻撃の実行、バイオ兵器の作成、人間の操作に関する知識は、誤用のリスクを引き起こす。
これまでの研究では、この知識を解き放つ方法が提案されている。
歴史的に、未学習のテクニックがモデルの重みから情報を取り除いているのか、単にアクセスしにくくしているだけなのかは定かではない。
これらの2つの目的を解消するために、モデル重みから情報を取り除くための敵評価手法を提案する。我々は、攻撃者が取り除かれるはずの事実にアクセスできるようにし、それを用いて、攻撃者はアクセス可能な事実から推測できない他の事実から他の事実を復元しようとする。
本研究では,既存のアンラーニング手法に適用した場合の学習前精度の88%を,アクセシブルな事実を微調整で再現できることを示し,モデル重みから情報を取り除く際の限界を明らかにした。
関連論文リスト
- Extracting Unlearned Information from LLMs with Activation Steering [46.16882599881247]
トレーニング後のモデルからセンシティブな知識を取り除くソリューションとして、アンラーニングが登場した。
本研究では,未学習モデルからの正確な情報検索手法として,アクティベーションステアリングを提案する。
その結果,未学習モデルからの正確な情報検索が可能であることが示され,現在の未学習手法の深刻な脆弱性が浮き彫りにされている。
論文 参考訳(メタデータ) (2024-11-04T21:42:56Z) - UnUnlearning: Unlearning is not sufficient for content regulation in advanced generative AI [50.61495097098296]
大規模言語モデル(LLM)におけるアンラーニングのパラダイムを再考する。
未学習の概念を導入し、未学習の知識を文脈内で再導入する。
我々は、不寛容な知識に対するコンテンツフィルタリングが不可欠であり、正確な未学習スキームでさえ、効果的なコンテンツ規制には不十分であると主張している。
論文 参考訳(メタデータ) (2024-06-27T10:24:35Z) - Machine Unlearning Fails to Remove Data Poisoning Attacks [20.495836283745618]
データ削除要求に従うことに加えて、未学習の手法の潜在的な応用として、有毒なデータに対するトレーニングの効果を除去することが挙げられる。
実験により,既存のアンラーニング手法は,多くの評価設定において有効であることが実証されているが,データ中毒の影響を除去することはできなかった。
論文 参考訳(メタデータ) (2024-06-25T02:05:29Z) - Learn What You Want to Unlearn: Unlearning Inversion Attacks against Machine Unlearning [16.809644622465086]
我々は、機械学習が未学習データの機密内容を漏洩させる範囲を理解するために、最初の調査を行う。
機械学習・アズ・ア・サービス・セッティングの下で、未学習サンプルの特徴とラベル情報を明らかにするアンラーニング・インバージョン・アタックを提案する。
実験結果から,提案攻撃は未学習データのセンシティブな情報を明らかにすることができることが示された。
論文 参考訳(メタデータ) (2024-04-04T06:37:46Z) - Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning
Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。
課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。
我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。
トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-12-07T07:17:24Z) - Can Sensitive Information Be Deleted From LLMs? Objectives for Defending
Against Extraction Attacks [73.53327403684676]
本稿では,モデル重みから直接センシティブな情報を削除する作業を研究するためのアタック・アンド・ディフェンスフレームワークを提案する。
モデル重み付けへの直接的編集について検討する。この手法は、削除された情報が将来的な攻撃によって抽出されないことを保証すべきである。
我々のホワイトボックスやブラックボックス攻撃は、編集されたモデルの38%から「削除された」情報を復元できるので、ROMEのような最先端のモデル編集方法でさえ、GPT-Jのようなモデルから事実情報を真に消し去るのに苦労している。
論文 参考訳(メタデータ) (2023-09-29T17:12:43Z) - Learning to Unlearn: Instance-wise Unlearning for Pre-trained
Classifiers [71.70205894168039]
そこでは、事前訓練されたモデルからインスタンスのセットに関する情報を削除することを目標としています。
本稿では,1)表現レベルでの忘れを克服するために,敵の例を活用すること,2)不必要な情報を伝播するネットワークパラメータをピンポイントする重み付け指標を活用すること,の2つの方法を提案する。
論文 参考訳(メタデータ) (2023-01-27T07:53:50Z) - Machine Unlearning of Features and Labels [72.81914952849334]
機械学習モデルにおけるアンラーニングとラベルのファーストシナリオを提案する。
提案手法は,影響関数の概念に基づいて,モデルパラメータのクローズドフォーム更新によるアンラーニングを実現する。
論文 参考訳(メタデータ) (2021-08-26T04:42:24Z) - Adversarial Targeted Forgetting in Regularization and Generative Based
Continual Learning Models [2.8021833233819486]
継続的(あるいはインクリメンタル)な学習アプローチは、その後のバッチやストリーミングデータから追加の知識やタスクを学ぶ必要がある場合に使用される。
知的敵は、既存の知識を時間とともに保持する連続学習アルゴリズムの能力を活用できることを示す。
敵は、そのタスクのテストインスタンスに慎重に設計されたバックドアサンプルを挿入することで、任意のタスクについて「偽のメモリ」を作成できることを示します。
論文 参考訳(メタデータ) (2021-02-16T18:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。