論文の概要: Downgrade to Upgrade: Optimizer Simplification Enhances Robustness in LLM Unlearning
- arxiv url: http://arxiv.org/abs/2510.00761v2
- Date: Thu, 02 Oct 2025 06:40:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.520885
- Title: Downgrade to Upgrade: Optimizer Simplification Enhances Robustness in LLM Unlearning
- Title(参考訳): アップグレードへのアップグレード: LLMアンラーニングにおけるロバスト性を高める最適化器
- Authors: Yicheng Lang, Yihua Zhang, Chongyu Fan, Changsheng Wang, Jinghan Jia, Sijia Liu,
- Abstract要約: 大言語モデル(LLM)は、既存のモデルから望ましくないデータや知識の影響を外科的に除去することを目的としている。
最近の知見は、ウェイト量子化や微調整のような未学習操作が、意図した忘れを迅速に中和できることを示している。
- 参考スコア(独自算出の注目度): 25.53799024782883
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) unlearning aims to surgically remove the influence of undesired data or knowledge from an existing model while preserving its utility on unrelated tasks. This paradigm has shown promise in addressing privacy and safety concerns. However, recent findings reveal that unlearning effects are often fragile: post-unlearning manipulations such as weight quantization or fine-tuning can quickly neutralize the intended forgetting. Prior efforts to improve robustness primarily reformulate unlearning objectives by explicitly assuming the role of vulnerability sources. In this work, we take a different perspective by investigating the role of the optimizer, independent of unlearning objectives and formulations, in shaping unlearning robustness. We show that the 'grade' of the optimizer, defined by the level of information it exploits, ranging from zeroth-order (gradient-free) to first-order (gradient-based) to second-order (Hessian-based), is tightly linked to the resilience of unlearning. Surprisingly, we find that downgrading the optimizer, such as using zeroth-order methods or compressed-gradient variants (e.g., gradient sign-based optimizers), often leads to stronger robustness. While these optimizers produce noisier and less precise updates, they encourage convergence to harder-to-disturb basins in the loss landscape, thereby resisting post-training perturbations. By connecting zeroth-order methods with randomized smoothing, we further highlight their natural advantage for robust unlearning. Motivated by these insights, we propose a hybrid optimizer that combines first-order and zeroth-order updates, preserving unlearning efficacy while enhancing robustness. Extensive experiments on the MUSE and WMDP benchmarks, across multiple LLM unlearning algorithms, validate that our approach achieves more resilient forgetting without sacrificing unlearning quality.
- Abstract(参考訳): 大言語モデル(LLM)は、既存のモデルから望ましくないデータや知識の影響を外科的に取り除き、その実用性を無関係なタスクに保存することを目的としている。
このパラダイムは、プライバシと安全性の懸念に対処する上で有望であることを示している。
しかし、近年の研究では、未学習の効果はしばしば脆弱であることが判明している。重量量子化や微調整のような未学習後の操作は、意図した忘れを迅速に中和することができる。
堅牢性を改善するための以前の取り組みは、主に、脆弱性ソースの役割を明示的に仮定することで、未学習の目的を再構築する。
本研究では,未学習の目的や定式化とは無関係に,未学習のロバストネスを形成する上での最適化の役割を考察することによって,異なる視点で検討する。
最適化器の'グレード'は、ゼロ階(段階的自由)から1階(段階的ベース)から2階(ヘッセンベース)まで、それが活用する情報のレベルによって定義されるが、アンラーニングのレジリエンスに強く結びついていることが示される。
意外なことに、ゼロ階法や圧縮階調変種(勾配符号に基づくオプティマイザなど)などのオプティマイザのダウングレードは、しばしば強いロバスト性をもたらす。
これらのオプティマイザは騒々しく、より正確でない更新を行うが、損失の地形において、より難易度の高い盆地への収束を奨励し、訓練後の摂動に抵抗する。
ゼロ階法とランダムな平滑化を結びつけることにより、頑健な未学習に対する自然的優位性をさらに強調する。
これらの知見を活かして,一階更新とゼロ階更新を組み合わせたハイブリッドオプティマイザを提案する。
MUSEとWMDPベンチマークの大規模な実験は、複数のLLMアンラーニングアルゴリズムに対して、我々のアプローチが未学習の品質を犠牲にすることなく、よりレジリエントな忘れ方を実現することを実証している。
関連論文リスト
- OFMU: Optimization-Driven Framework for Machine Unlearning [5.100622189286672]
大規模言語モデルは、ユーザ要求、著作権のある資料、時代遅れの情報など、特定の知識を解放する能力を必要としている。
我々は,保留期間を保ちながら忘れを明示的に優先順位付けするペナルティベースの二段階最適化フレームワークOFMUを提案する。
OFMUは既存のアンラーニング手法を有効性と有効性の両方で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-09-26T15:31:32Z) - Optimizers Qualitatively Alter Solutions And We Should Leverage This [62.662640460717476]
ディープニューラルネットワーク(DNN)は、SGDのようなローカル情報のみを使用する場合、損失のグローバルな最小限に収束することを保証できない。
コミュニティは、既存のメソッドのバイアスを理解すること、また、ソリューションの特定の特性を誘発する明示的な意図で、新しいDNNを構築することを目的としている。
論文 参考訳(メタデータ) (2025-07-16T13:33:31Z) - BLUR: A Bi-Level Optimization Approach for LLM Unlearning [105.98410883830596]
未学習問題の階層構造をモデル化することが重要であると論じる。
本稿では,より優れた性能を実現する新しいアルゴリズムであるBi-Level UnleaRning(textttBLUR)を提案する。
論文 参考訳(メタデータ) (2025-06-09T19:23:05Z) - UniErase: Towards Balanced and Precise Unlearning in Language Models [69.04923022755547]
大規模言語モデル(LLM)は、古い情報問題に対処するために反復的な更新を必要とする。
UniEraseは、知識の未学習と能力保持の間の精度とバランスの取れたパフォーマンスを示す、新しいアンラーニングフレームワークである。
論文 参考訳(メタデータ) (2025-05-21T15:53:28Z) - SAEs $\textit{Can}$ Improve Unlearning: Dynamic Sparse Autoencoder Guardrails for Precision Unlearning in LLMs [24.48560556882878]
精度未学習のための新しい手法である$textbfDynamic DAE Guardrails$ (DSG)を紹介した。
実験の結果,DSGは未学習を先導する手法よりもかなり優れていた。
論文 参考訳(メタデータ) (2025-04-11T01:24:03Z) - Boosting Alignment for Post-Unlearning Text-to-Image Generative Models [55.82190434534429]
大規模な生成モデルは、大量のデータによって推進される印象的な画像生成能力を示している。
これはしばしば必然的に有害なコンテンツや不適切なコンテンツを生み出し、著作権の懸念を引き起こす。
学習しない反復ごとに最適なモデル更新を求めるフレームワークを提案し、両方の目的に対して単調な改善を確実にする。
論文 参考訳(メタデータ) (2024-12-09T21:36:10Z) - Simplicity Prevails: Rethinking Negative Preference Optimization for LLM Unlearning [27.991291785091736]
本研究は、不要なデータの影響を取り除くことを目的として、大規模言語モデル(LLM)アンラーニングの問題を研究する。
未学習の需要が増えているにもかかわらず、技術的に地平線を画した最適化フレームワークは欠如している。
我々はSimNPOと呼ばれるシンプルで効果的なアンラーニング最適化フレームワークを提案し、参照モデルへの依存をなくすことによる「単純さ」がアンラーニングの恩恵をもたらすことを示した。
論文 参考訳(メタデータ) (2024-10-09T17:58:12Z) - Towards Robust Knowledge Unlearning: An Adversarial Framework for Assessing and Improving Unlearning Robustness in Large Language Models [19.015202590038996]
我々は、未学習モデルを攻撃する動的かつ自動化されたフレームワークであるDynamic Unlearning Attack (DUA)を設計する。
学習過程の堅牢性を効果的に向上する普遍的な枠組みであるLatent Adrial Unlearning (LAU)を提案する。
LAUは学習効率を53.5%以上改善し、近隣の知識の11.6%以下に減らし、モデルの一般的な能力にはほとんど影響を与えないことを示した。
論文 参考訳(メタデータ) (2024-08-20T09:36:04Z) - Towards Robust and Parameter-Efficient Knowledge Unlearning for LLMs [25.91643745340183]
大規模言語モデル(LLM)は、大量のテキストコーパスの事前学習を通じて、強い推論と記憶能力を示す。
これはプライバシーと著作権侵害のリスクを生じさせ、効率的な機械学習手法の必要性を強調している。
LLMの堅牢かつ効率的なアンラーニングを可能にする新しいフレームワークであるLoKUを提案する。
論文 参考訳(メタデータ) (2024-08-13T04:18:32Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。