論文の概要: From Dormant to Deleted: Tamper-Resistant Unlearning Through Weight-Space Regularization
- arxiv url: http://arxiv.org/abs/2505.22310v1
- Date: Wed, 28 May 2025 12:53:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.605634
- Title: From Dormant to Deleted: Tamper-Resistant Unlearning Through Weight-Space Regularization
- Title(参考訳): 休眠状態から削除状態へ:軽量空間規則化によるタンパー抵抗型未学習
- Authors: Shoaib Ahmed Siddiqui, Adrian Weller, David Krueger, Gintare Karolina Dziugaite, Michael Curtis Mozer, Eleni Triantafillou,
- Abstract要約: LLMの最近の未学習手法は再学習攻撃に対して脆弱である。
学習後50%程度から100%近くまで、リザーブセットだけを微調整することで、忘れたセットの精度が回復できるという驚くべき発見をしました。
本稿では,再学習攻撃に対する最先端の耐性を実現する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 46.78723722220735
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent unlearning methods for LLMs are vulnerable to relearning attacks: knowledge believed-to-be-unlearned re-emerges by fine-tuning on a small set of (even seemingly-unrelated) examples. We study this phenomenon in a controlled setting for example-level unlearning in vision classifiers. We make the surprising discovery that forget-set accuracy can recover from around 50% post-unlearning to nearly 100% with fine-tuning on just the retain set -- i.e., zero examples of the forget set. We observe this effect across a wide variety of unlearning methods, whereas for a model retrained from scratch excluding the forget set (gold standard), the accuracy remains at 50%. We observe that resistance to relearning attacks can be predicted by weight-space properties, specifically, $L_2$-distance and linear mode connectivity between the original and the unlearned model. Leveraging this insight, we propose a new class of methods that achieve state-of-the-art resistance to relearning attacks.
- Abstract(参考訳): LLMの最近の未学習手法は、再学習攻撃に対して脆弱である。
我々はこの現象を視覚分類器の例レベルのアンラーニングの制御環境で研究する。
私たちは、リザーブセットのみを微調整することで、忘れセットの精度が約50%から100%近くまで回復できるという驚くべき発見をしました。
この効果は, 学習方法が多種多様であるのに対して, スクラッチから再学習したモデルでは, 留置セット(金標準)を除いたモデルでは, 精度は50%に留まった。
再学習攻撃に対する抵抗は、特に、L_2$-distanceと元のモデルと未学習モデルの線形モード接続によって予測できる。
この知見を生かして、我々は、再学習攻撃に対する最先端の抵抗を実現する新しい方法のクラスを提案する。
関連論文リスト
- UnStar: Unlearning with Self-Taught Anti-Sample Reasoning for LLMs [10.335361310419826]
大規模言語モデル(LLM)のための自己学習アンチサンプル推論を用いたアンラーニング(UnSTAR)について紹介する。
まず, 反サンプルによる非学習という新しい概念を提案し, 第二に, 誤解を招く合理性を活用して反サンプルを生成することにより, 関連性を逆転させ, 未学習プロセスを加速させる。
結果は、アンチサンプルがLLMに対して効率的でターゲットの未学習戦略を提供し、プライバシ保護機械学習とモデル修正のための新たな道を開くことを実証している。
論文 参考訳(メタデータ) (2024-10-22T14:30:03Z) - Unlearning or Obfuscating? Jogging the Memory of Unlearned LLMs via Benign Relearning [37.061187080745654]
LLMにおけるアンラーニングに対する既存のアプローチは、単純な$textitbenign再ラーニング攻撃の影響を受けやすいことを示す。
小さく、潜在的にゆるやかに関連付けられたデータのみにアクセスすることで、未学習モデルのメモリを'ジョグ'して、未学習の影響を逆転させることができることが分かりました。
論文 参考訳(メタデータ) (2024-06-19T09:03:21Z) - Enhancing Consistency and Mitigating Bias: A Data Replay Approach for Incremental Learning [93.90047628101155]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。
これを解決するために、新しいタスク学習中に過去のタスクからのデータを再生する手法を提案する。
しかし、メモリの制約やデータプライバシーの問題により、実際には期待できない。
論文 参考訳(メタデータ) (2024-01-12T12:51:12Z) - Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning
Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。
課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。
我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。
トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-12-07T07:17:24Z) - Learning to Unlearn: Instance-wise Unlearning for Pre-trained
Classifiers [71.70205894168039]
そこでは、事前訓練されたモデルからインスタンスのセットに関する情報を削除することを目標としています。
本稿では,1)表現レベルでの忘れを克服するために,敵の例を活用すること,2)不必要な情報を伝播するネットワークパラメータをピンポイントする重み付け指標を活用すること,の2つの方法を提案する。
論文 参考訳(メタデータ) (2023-01-27T07:53:50Z) - Deep Regression Unlearning [6.884272840652062]
我々は、プライバシー攻撃に対して堅牢な、一般化された深層回帰学習手法を導入する。
我々は、コンピュータビジョン、自然言語処理、予測アプリケーションのための回帰学習実験を行う。
論文 参考訳(メタデータ) (2022-10-15T05:00:20Z) - Self-Damaging Contrastive Learning [92.34124578823977]
ラベルのないデータは一般に不均衡であり、長い尾の分布を示す。
本稿では,クラスを知らずに表現学習を自動的にバランスをとるための,自己学習コントラスト学習という原則的枠組みを提案する。
実験の結果,SDCLRは全体としての精度だけでなく,バランス性も著しく向上することがわかった。
論文 参考訳(メタデータ) (2021-06-06T00:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。