論文の概要: Robust LLM Unlearning with MUDMAN: Meta-Unlearning with Disruption Masking And Normalization
- arxiv url: http://arxiv.org/abs/2506.12484v1
- Date: Sat, 14 Jun 2025 12:49:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.297476
- Title: Robust LLM Unlearning with MUDMAN: Meta-Unlearning with Disruption Masking And Normalization
- Title(参考訳): MUDMANを用いたロバストLLMアンラーニング:破壊的マスキングと正規化によるメタ学習
- Authors: Filip Sondej, Yushi Yang, Mikołaj Kniejski, Marcel Windys,
- Abstract要約: 言語モデルは、広範囲の安全性を調整した後でも、危険な知識とスキルを保持することができる。
近年の研究では、特別な未学習の方法であっても容易に逆転できることが示されている。
Disruption Maskingは、ウェイトを更新するだけを可能にするテクニックです。
- 参考スコア(独自算出の注目度): 0.562479170374811
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models can retain dangerous knowledge and skills even after extensive safety fine-tuning, posing both misuse and misalignment risks. Recent studies show that even specialized unlearning methods can be easily reversed. To address this, we systematically evaluate many existing and novel components of unlearning methods and identify ones crucial for irreversible unlearning. We introduce Disruption Masking, a technique in which we only allow updating weights, where the signs of the unlearning gradient and the retaining gradient are the same. This ensures all updates are non-disruptive. Additionally, we identify the need for normalizing the unlearning gradients, and also confirm the usefulness of meta-learning. We combine these insights into MUDMAN (Meta-Unlearning with Disruption Masking and Normalization) and validate its effectiveness at preventing the recovery of dangerous capabilities. MUDMAN outperforms the prior TAR method by 40\%, setting a new state-of-the-art for robust unlearning.
- Abstract(参考訳): 言語モデルは、広範囲の安全性を微調整した後でも危険な知識とスキルを保持し、誤用と誤認識の両方のリスクを生じさせる。
近年の研究では、特別な未学習の方法であっても容易に逆転できることが示されている。
そこで本研究では,非学習手法の既存および新規コンポーネントの多くを体系的に評価し,不可逆的非学習に不可欠な要素を同定する。
Disruption Maskingは、未学習の勾配と維持の勾配の兆候が同じであるウェイトを更新するだけを可能にするテクニックです。
これにより、すべての更新が破壊的でないことが保証される。
さらに,未学習勾配の正規化の必要性を認識し,メタラーニングの有用性を確認する。
これらの知見をMUDMAN(Meta-Unlearning with Disruption Masking and Normalization)と組み合わせ,その有効性を検証した。
MUDMANは従来のTAR法を40%上回り、堅牢な未学習のための新しい最先端を設定できる。
関連論文リスト
- UniErase: Unlearning Token as a Universal Erasure Primitive for Language Models [54.75551043657238]
学習可能なパラメトリック接尾辞(アンラーニングトークン)を用いて、ターゲットとなる忘れ行動に向けて言語モデルを操る新しいアンラーニングパラダイムであるUniEraseを紹介する。
UniEraseは、実世界の知識設定の下で、バッチ、シーケンシャル、そして正確なアンラーニングで、最先端のSOTA(State-of-the-art)パフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-21T15:53:28Z) - An Adversarial Perspective on Machine Unlearning for AI Safety [22.639683142004372]
この作業は、アンラーニングと従来のトレーニング後の安全性の根本的な違いに挑戦する。
既存のjailbreakメソッドは、これまで未学習に対して効果がないと報告されていたが、慎重に適用した場合に成功できることを実証する。
例えば、アクティベーション空間における10の無関係な例を微調整したり、特定の方向を除去することで、RMUで編集されたモデルに対して最も危険な能力を回復できることを示す。
論文 参考訳(メタデータ) (2024-09-26T16:32:19Z) - Learn while Unlearn: An Iterative Unlearning Framework for Generative Language Models [52.03511469562013]
3つのコアコンポーネントで構成されるICU(Iterative Contrastive Unlearning)フレームワークを紹介する。
知識未学習誘導モジュールは、未学習の損失を使用して、特定の知識を除去するためにターゲットとする。
Contrastive Learning Enhancementモジュールは、純粋な未学習の目標に対してモデルの表現力を保持する。
イテレーティブ・アンラーニング・リファインメントモジュールは、進行中の評価と更新を通じて、アンラーニングプロセスを動的に調整する。
論文 参考訳(メタデータ) (2024-07-25T07:09:35Z) - Unlearn What You Want to Forget: Efficient Unlearning for LLMs [92.51670143929056]
大規模言語モデル(LLM)は、幅広いテキストデータを事前学習し記憶することで大きな進歩を遂げた。
このプロセスはプライバシー問題やデータ保護規則違反に悩まされる可能性がある。
データ削除後のモデル全体を再トレーニングすることなく、LLMを効率的に更新できる効率的なアンラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:35:59Z) - On Fast Adversarial Robustness Adaptation in Model-Agnostic
Meta-Learning [100.14809391594109]
モデルに依存しないメタラーニング(MAML)は、数発の学習において最も成功したメタラーニング手法の1つである。
メタモデルの一般化力にもかかわらず、マルチショット学習においてMDLがいかに敵対的堅牢性を維持することができるかは明らかではない。
本稿では,ラベルなしデータ拡張,高速な攻撃生成,計算量軽微な微調整を可能にする,汎用的かつ最適化が容易なロバストネス正規化メタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-20T22:03:04Z) - Incremental Object Detection via Meta-Learning [77.55310507917012]
本稿では,段階的タスク間の情報を最適に共有するように,モデル勾配を再形成するメタラーニング手法を提案する。
既存のメタ学習法と比較して,本手法はタスク非依存であり,オブジェクト検出のための高容量モデルに新たなクラスやスケールを段階的に追加することができる。
論文 参考訳(メタデータ) (2020-03-17T13:40:00Z) - Online Fast Adaptation and Knowledge Accumulation: a New Approach to
Continual Learning [74.07455280246212]
継続的な学習は、新しいタスクに適応しながら、以前のタスクを忘れずにタスクの流れから学ぶエージェントを研究する。
この新たなシナリオでは、現在の連続学習、メタ学習、メタ連続学習、および連続メタ学習技術が失敗することを示します。
本稿では,このシナリオの強力なベースラインとして,人気のあるMAMLアルゴリズムのオンライン拡張であるContinual-MAMLを提案する。
論文 参考訳(メタデータ) (2020-03-12T15:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。