論文の概要: Beyond Sharp Minima: Robust LLM Unlearning via Feedback-Guided Multi-Point Optimization
- arxiv url: http://arxiv.org/abs/2509.20230v3
- Date: Tue, 30 Sep 2025 13:04:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:44:59.833044
- Title: Beyond Sharp Minima: Robust LLM Unlearning via Feedback-Guided Multi-Point Optimization
- Title(参考訳): Beyond Sharp Minima: フィードバックガイドによるマルチポイント最適化によるロバストLLMアンラーニング
- Authors: Wenhan Wu, Zheyuan Liu, Chongyang Gao, Ren Wang, Kaize Ding,
- Abstract要約: より安定したパラメータ領域を明示的に求める双方向フィードバック誘導最適化フレームワークを提案する。
WMDP と MUSE のベンチマーク実験により,本手法は再学習および脱獄攻撃に対して極めて堅牢であることが示された。
- 参考スコア(独自算出の注目度): 37.965539404740774
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Current LLM unlearning methods face a critical security vulnerability that undermines their fundamental purpose: while they appear to successfully remove sensitive or harmful knowledge, this ``forgotten" information remains precariously recoverable through relearning attacks. We identify that the root cause is that conventional methods optimizing the forgetting loss at individual data points will drive model parameters toward sharp minima in the loss landscape. In these unstable regions, even minimal parameter perturbations can drastically alter the model's behaviors. Consequently, relearning attacks exploit this vulnerability by using just a few fine-tuning samples to navigate the steep gradients surrounding these unstable regions, thereby rapidly recovering knowledge that was supposedly erased. This exposes a critical robustness gap between apparent unlearning and actual knowledge removal. To address this issue, we propose StableUN, a bi-level feedback-guided optimization framework that explicitly seeks more stable parameter regions via neighborhood-aware optimization. It integrates forgetting feedback, which uses adversarial perturbations to probe parameter neighborhoods, with remembering feedback to preserve model utility, aligning the two objectives through gradient projection. Experiments on WMDP and MUSE benchmarks demonstrate that our method is significantly more robust against both relearning and jailbreaking attacks while maintaining competitive utility performance.
- Abstract(参考訳): 現在のLLMアンラーニング手法は、基本的な目的を損なう重要なセキュリティ上の脆弱性に直面している。
本研究の根本原因は,個々のデータポイントにおける記憶損失を最適化する従来の手法が,損失ランドスケープのシャープ・ミニマに向けてモデルパラメータを駆動することである。
これらの不安定な領域では、最小限のパラメータ摂動でさえモデルの振る舞いを劇的に変えることができる。
その結果、この脆弱性を利用した再学習攻撃は、少数の微調整サンプルを使用して、不安定な領域を取り巻く急勾配をナビゲートすることで、急速に消去されたと思われる知識を回復する。
これは、明らかな未学習と実際の知識の除去の間に重要な堅牢性ギャップを露呈する。
この問題に対処するため,我々は2段階のフィードバック誘導最適化フレームワークであるStableUNを提案する。
パラメータ近傍を探索するために逆方向の摂動を使い、モデルユーティリティを保存するためにフィードバックを記憶し、勾配投影を通じて2つの目的を整列させる。
WMDP と MUSE のベンチマーク実験により,我々の手法は,競争力のある実用性能を維持しつつ,再学習と脱獄攻撃の両方に対してはるかに堅牢であることが示された。
関連論文リスト
- Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - Towards LLM Unlearning Resilient to Relearning Attacks: A Sharpness-Aware Minimization Perspective and Beyond [41.3029262040131]
再学習攻撃に対して未学習モデルを堅牢化する方法について検討する。
解析の結果,スムーズさの最適化が再学習攻撃の軽減に重要な役割を担っていることが明らかとなった。
論文 参考訳(メタデータ) (2025-02-07T23:03:55Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - A Universal Class of Sharpness-Aware Minimization Algorithms [57.29207151446387]
我々は、新しいシャープネス尺度を導入し、新しいシャープネス対応目標関数を導出する。
これらの測度がテキスト的に表現可能であることを証明し、トレーニング損失ヘッセン行列の任意の関数を適切なハイパーおよび行列式で表すことを可能にする。
論文 参考訳(メタデータ) (2024-06-06T01:52:09Z) - Improving Data-aware and Parameter-aware Robustness for Continual Learning [3.480626767752489]
本報告では, オフラヤの非効率な取扱いから, この不整合が生じることを解析する。
本稿では,ロバスト連続学習(RCL)手法を提案する。
提案手法は, 堅牢性を効果的に維持し, 新たなSOTA(State-of-the-art)結果を得る。
論文 参考訳(メタデータ) (2024-05-27T11:21:26Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。