論文の概要: Erase or Hide? Suppressing Spurious Unlearning Neurons for Robust Unlearning
- arxiv url: http://arxiv.org/abs/2509.22263v1
- Date: Fri, 26 Sep 2025 12:27:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.417457
- Title: Erase or Hide? Suppressing Spurious Unlearning Neurons for Robust Unlearning
- Title(参考訳): エアーゼかシークか? 未学習の未学習ニューロンの無作為化を抑える
- Authors: Nakyeong Yang, Dong-Kyum Kim, Jea Kwon, Minsung Kim, Kyomin Jung, Meeyoung Cha,
- Abstract要約: Webスケールのデータに基づいてトレーニングされた大規模な言語モデルは、プライベートまたはセンシティブな知識を記憶し、重大なプライバシーリスクを生じさせる。
いくつかの未学習の手法は、その後の訓練中に「再学習」に弱いままであり、忘れられた知識のかなりの部分が再浮上する。
Ssiuuは、帰属指導による正規化を取り入れた新しい学習方法であり、刺激的なネガティブな影響を防ぎ、ターゲット知識を忠実に除去する。
- 参考スコア(独自算出の注目度): 31.829376135133554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models trained on web-scale data can memorize private or sensitive knowledge, raising significant privacy risks. Although some unlearning methods mitigate these risks, they remain vulnerable to "relearning" during subsequent training, allowing a substantial portion of forgotten knowledge to resurface. In this paper, we show that widely used unlearning methods cause shallow alignment: instead of faithfully erasing target knowledge, they generate spurious unlearning neurons that amplify negative influence to hide it. To overcome this limitation, we introduce Ssiuu, a new class of unlearning methods that employs attribution-guided regularization to prevent spurious negative influence and faithfully remove target knowledge. Experimental results confirm that our method reliably erases target knowledge and outperforms strong baselines across two practical retraining scenarios: (1) adversarial injection of private data, and (2) benign attack using an instruction-following benchmark. Our findings highlight the necessity of robust and faithful unlearning methods for safe deployment of language models.
- Abstract(参考訳): Webスケールのデータに基づいてトレーニングされた大規模な言語モデルは、プライベートまたはセンシティブな知識を記憶し、重大なプライバシーリスクを生じさせる。
いくつかの未学習の手法はこれらのリスクを軽減するが、その後のトレーニング中に「再学習」に弱いままであり、忘れられた知識のかなりの部分が再浮上する。
本稿では、広く使われている未学習の手法が、標的知識を忠実に消去する代わりに、負の影響を増幅して隠蔽する急激な未学習ニューロンを生成することを明らかにする。
この制限を克服するために,帰属誘導型正規化を用いた新たな非学習手法であるSsiuuを導入し,刺激的なネガティブな影響を防止し,ターゲット知識を忠実に除去する。
実験結果から,本手法は目標知識を確実に消去し,(1)個人データの逆噴射,(2)指示追従ベンチマークによる良性攻撃の2つの実践的訓練シナリオにおいて,強いベースラインを向上することを確認した。
本研究は,言語モデルの安全な展開のために,頑健で忠実な未学習手法の必要性を浮き彫りにした。
関連論文リスト
- Step-by-Step Reasoning Attack: Revealing 'Erased' Knowledge in Large Language Models [9.719371187651591]
未学習のテクニックは、その知識を表面下で抑制し、残すことで、正しいプロンプトで取り出すことができる。
我々は、段階的に推論に基づくブラックボックス攻撃であるSleekを導入し、非学習障害を体系的に暴露する。
生成した敵のプロンプトのうち62.5%がWHPの未発表のラマから忘れられたハリー・ポッターの事実を回収し、50%は不当な知識の抑制を暴露した。
論文 参考訳(メタデータ) (2025-06-14T04:22:17Z) - Erasing Without Remembering: Implicit Knowledge Forgetting in Large Language Models [70.78205685001168]
我々は,その一般化に着目して,大規模言語モデルにおける知識の忘れについて検討する。
UGBenchは、スコープ内暗黙の知識の未学習を評価するために特別に設計された最初のベンチマークである。
確率に基づく新しいアンラーニングパラダイムであるPerMUを提案する。
論文 参考訳(メタデータ) (2025-02-27T11:03:33Z) - Do Unlearning Methods Remove Information from Language Model Weights? [0.0]
本研究では,事前学習中に学習した情報に対して,学習前の精度の88%を現在の未学習手法に適用した場合に,アクセス可能な事実の微調整を行うことが可能であることを示す。
また,未学習のロバスト性を評価するアンラーニング評価は,事前学習中に学習した情報を未学習にしようとする評価に比べ,頑健さを過大評価する可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-11T14:06:58Z) - Learn while Unlearn: An Iterative Unlearning Framework for Generative Language Models [52.40798352740857]
3つのコアコンポーネントで構成されるICU(Iterative Contrastive Unlearning)フレームワークを紹介する。
知識未学習誘導モジュールは、未学習の損失を使用して、特定の知識を除去するためにターゲットとする。
Contrastive Learning Enhancementモジュールは、純粋な未学習の目標に対してモデルの表現力を保持する。
イテレーティブ・アンラーニング・リファインメントモジュールは、進行中の評価と更新を通じて、アンラーニングプロセスを動的に調整する。
論文 参考訳(メタデータ) (2024-07-25T07:09:35Z) - To Forget or Not? Towards Practical Knowledge Unlearning for Large Language Models [39.39428450239399]
大規模な言語モデル(LLM)は、個人プライバシー情報や著作権資料などの機密データを必然的に保持する。
知識未学習の最近の進歩は、特定の知識を消去するためにLLMパラメータを更新する。
未学習プロセスが必然的に本質的な知識を消去するかどうかを評価するために KnowUnDo を導入する。
論文 参考訳(メタデータ) (2024-07-02T03:34:16Z) - UnUnlearning: Unlearning is not sufficient for content regulation in advanced generative AI [50.61495097098296]
大規模言語モデル(LLM)におけるアンラーニングのパラダイムを再考する。
未学習の概念を導入し、未学習の知識を文脈内で再導入する。
我々は、不寛容な知識に対するコンテンツフィルタリングが不可欠であり、正確な未学習スキームでさえ、効果的なコンテンツ規制には不十分であると主張している。
論文 参考訳(メタデータ) (2024-06-27T10:24:35Z) - Learning with Recoverable Forgetting [77.56338597012927]
学習wIth Recoverable Forgettingは、タスクまたはサンプル固有の知識の除去とリカバリを明示的に処理する。
具体的には、LIRFは2つの革新的なスキーム、すなわち知識預金と離脱をもたらす。
いくつかのデータセットで実験を行い、提案したLIRF戦略が一般化能力を満足させる結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-07-17T16:42:31Z) - Adversarial Targeted Forgetting in Regularization and Generative Based
Continual Learning Models [2.8021833233819486]
継続的(あるいはインクリメンタル)な学習アプローチは、その後のバッチやストリーミングデータから追加の知識やタスクを学ぶ必要がある場合に使用される。
知的敵は、既存の知識を時間とともに保持する連続学習アルゴリズムの能力を活用できることを示す。
敵は、そのタスクのテストインスタンスに慎重に設計されたバックドアサンプルを挿入することで、任意のタスクについて「偽のメモリ」を作成できることを示します。
論文 参考訳(メタデータ) (2021-02-16T18:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。