論文の概要: Do Unlearning Methods Remove Information from Language Model Weights?
- arxiv url: http://arxiv.org/abs/2410.08827v2
- Date: Sun, 10 Nov 2024 20:25:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:03:59.775180
- Title: Do Unlearning Methods Remove Information from Language Model Weights?
- Title(参考訳): アンラーニング手法は言語モデル重みから情報を除去するか?
- Authors: Aghyad Deeb, Fabien Roger,
- Abstract要約: 大規模言語モデルによるサイバーセキュリティ攻撃の実行、バイオ兵器の作成、人間の操作に関する知識は、誤用のリスクを引き起こす。
モデル重みから情報を取り除くための逆評価法を提案する。
現状の未学習手法に適用した場合, アクセシブルな事実を微調整することで, 88%の未学習精度を回復できることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Large Language Models' knowledge of how to perform cyber-security attacks, create bioweapons, and manipulate humans poses risks of misuse. Previous work has proposed methods to unlearn this knowledge. Historically, it has been unclear whether unlearning techniques are removing information from the model weights or just making it harder to access. To disentangle these two objectives, we propose an adversarial evaluation method to test for the removal of information from model weights: we give an attacker access to some facts that were supposed to be removed, and using those, the attacker tries to recover other facts from the same distribution that cannot be guessed from the accessible facts. We show that using fine-tuning on the accessible facts can recover 88% of the pre-unlearning accuracy when applied to current unlearning methods, revealing the limitations of these methods in removing information from the model weights.
- Abstract(参考訳): 大規模言語モデルによるサイバーセキュリティ攻撃の実行、バイオ兵器の作成、人間の操作に関する知識は、誤用のリスクを引き起こす。
これまでの研究では、この知識を解き放つ方法が提案されている。
歴史的に、未学習のテクニックがモデルの重みから情報を取り除いているのか、単にアクセスしにくくしているだけなのかは定かではない。
これらの2つの目的を解消するために、モデル重みから情報を取り除くための敵評価手法を提案する。我々は、攻撃者が取り除かれるはずの事実にアクセスできるようにし、それを用いて、攻撃者はアクセス可能な事実から推測できない他の事実から他の事実を復元しようとする。
本研究では,既存のアンラーニング手法に適用した場合の学習前精度の88%を,アクセシブルな事実を微調整で再現できることを示し,モデル重みから情報を取り除く際の限界を明らかにした。
関連論文リスト
- Extracting Unlearned Information from LLMs with Activation Steering [46.16882599881247]
トレーニング後のモデルからセンシティブな知識を取り除くソリューションとして、アンラーニングが登場した。
本研究では,未学習モデルからの正確な情報検索手法として,アクティベーションステアリングを提案する。
その結果,未学習モデルからの正確な情報検索が可能であることが示され,現在の未学習手法の深刻な脆弱性が浮き彫りにされている。
論文 参考訳(メタデータ) (2024-11-04T21:42:56Z) - RESTOR: Knowledge Recovery through Machine Unlearning [71.75834077528305]
Webスケールコーパスでトレーニングされた大規模な言語モデルは、望ましくないデータポイントを記憶することができる。
訓練されたモデルからこれらのデータポイントを「消去」することを目的とした、多くの機械学習手法が提案されている。
以下に示す次元に基づいて,機械学習のためのRESTORフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-31T20:54:35Z) - UnUnlearning: Unlearning is not sufficient for content regulation in advanced generative AI [50.61495097098296]
大規模言語モデル(LLM)におけるアンラーニングのパラダイムを再考する。
未学習の概念を導入し、未学習の知識を文脈内で再導入する。
我々は、不寛容な知識に対するコンテンツフィルタリングが不可欠であり、正確な未学習スキームでさえ、効果的なコンテンツ規制には不十分であると主張している。
論文 参考訳(メタデータ) (2024-06-27T10:24:35Z) - Machine Unlearning Fails to Remove Data Poisoning Attacks [20.495836283745618]
データ削除要求に従うことに加えて、未学習の手法の潜在的な応用として、有毒なデータに対するトレーニングの効果を除去することが挙げられる。
実験により,既存のアンラーニング手法は,多くの評価設定において有効であることが実証されているが,データ中毒の影響を除去することはできなかった。
論文 参考訳(メタデータ) (2024-06-25T02:05:29Z) - Large Scale Knowledge Washing [24.533316191149677]
大規模な言語モデルは、世界の知識を記憶する素晴らしい能力を示している。
本稿では,大規模な知識洗浄の問題を紹介し,膨大な事実知識の学習に焦点をあてる。
論文 参考訳(メタデータ) (2024-05-26T23:29:49Z) - Can Sensitive Information Be Deleted From LLMs? Objectives for Defending
Against Extraction Attacks [73.53327403684676]
本稿では,モデル重みから直接センシティブな情報を削除する作業を研究するためのアタック・アンド・ディフェンスフレームワークを提案する。
モデル重み付けへの直接的編集について検討する。この手法は、削除された情報が将来的な攻撃によって抽出されないことを保証すべきである。
我々のホワイトボックスやブラックボックス攻撃は、編集されたモデルの38%から「削除された」情報を復元できるので、ROMEのような最先端のモデル編集方法でさえ、GPT-Jのようなモデルから事実情報を真に消し去るのに苦労している。
論文 参考訳(メタデータ) (2023-09-29T17:12:43Z) - Learning to Unlearn: Instance-wise Unlearning for Pre-trained
Classifiers [71.70205894168039]
そこでは、事前訓練されたモデルからインスタンスのセットに関する情報を削除することを目標としています。
本稿では,1)表現レベルでの忘れを克服するために,敵の例を活用すること,2)不必要な情報を伝播するネットワークパラメータをピンポイントする重み付け指標を活用すること,の2つの方法を提案する。
論文 参考訳(メタデータ) (2023-01-27T07:53:50Z) - Machine Unlearning of Features and Labels [72.81914952849334]
機械学習モデルにおけるアンラーニングとラベルのファーストシナリオを提案する。
提案手法は,影響関数の概念に基づいて,モデルパラメータのクローズドフォーム更新によるアンラーニングを実現する。
論文 参考訳(メタデータ) (2021-08-26T04:42:24Z) - Weight Poisoning Attacks on Pre-trained Models [103.19413805873585]
本研究は, バックドアを微調整した後に, バックドアを露出する脆弱性を伴って, 事前訓練した重量を注入した場合に, 重量中毒を発生させることが可能であることを示す。
感情分類,毒性検出,スパム検出に関する実験により,この攻撃は広く適用可能であり,深刻な脅威となることが示された。
論文 参考訳(メタデータ) (2020-04-14T16:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。