論文の概要: Gauss-Newton Unlearning for the LLM Era
- arxiv url: http://arxiv.org/abs/2602.10568v1
- Date: Wed, 11 Feb 2026 06:37:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.51147
- Title: Gauss-Newton Unlearning for the LLM Era
- Title(参考訳): LLM時代のガウスニュートンアンラーニング
- Authors: Lev McKinney, Anvith Thudi, Juhan Bae, Tara Rezaei, Nicolas Papernot, Sheila A. McIlraith, Roger Grosse,
- Abstract要約: ここでは,K-FADE が左値集合からの出力を抑圧し,出力空間において左値集合を含まない再学習の結果を近似することを示す。
これは、K-FADEがモデル全体の出力の制約をモデル重みの制約に変換するためである。
K-FADEは、モデルがさらなるトレーニングを受ければ再適用でき、アンラーニングを安価に維持できる。
- 参考スコア(独自算出の注目度): 35.36812567523043
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Standard large language model training can create models that produce outputs their trainer deems unacceptable in deployment. The probability of these outputs can be reduced using methods such as LLM unlearning. However, unlearning a set of data (called the forget set) can degrade model performance on other distributions where the trainer wants to retain the model's behavior. To improve this trade-off, we demonstrate that using the forget set to compute only a few uphill Gauss-Newton steps provides a conceptually simple, state-of-the-art unlearning approach for LLMs. While Gauss-Newton steps adapt Newton's method to non-linear models, it is non-trivial to efficiently and accurately compute such steps for LLMs. Hence, our approach crucially relies on parametric Hessian approximations such as Kronecker-Factored Approximate Curvature (K-FAC). We call this combined approach K-FADE (K-FAC for Distribution Erasure). Our evaluation on the WMDP and ToFU benchmarks demonstrates that K-FADE suppresses outputs from the forget set and approximates, in output space, the results of retraining without the forget set. Critically, our method does this while altering the outputs on the retain set less than previous methods. This is because K-FADE transforms a constraint on the model's outputs across the entire retain set into a constraint on the model's weights, allowing the algorithm to minimally change the model's behavior on the retain set at each step. Moreover, the unlearning updates computed by K-FADE can be reapplied later if the model undergoes further training, allowing unlearning to be cheaply maintained.
- Abstract(参考訳): 標準の大規模言語モデルのトレーニングは、トレーナーがデプロイメントで許容できないと判断した出力を生成するモデルを作成することができる。
LLMアンラーニングのような手法により、これらの出力の確率を下げることができる。
しかし、あるデータセット(「忘れセット」と呼ばれる)をアンラーニングすることで、トレーナーがモデルの振舞いを保持したい他のディストリビューションでモデルパフォーマンスを低下させることができる。
このトレードオフを改善するために,数段のガウス・ニュートンステップのみを演算するリクットセットを用いることで,LLMに対する概念的にシンプルで最先端の未学習アプローチが実現できることを実証する。
ガウス・ニュートンのステップはニュートンの手法を非線形モデルに適応させるが、LLMのそのようなステップを効率的に正確に計算することは自明ではない。
したがって,本手法は Kronecker-Factored Approximate Curvature (K-FAC) のようなパラメトリックなヘッセン近似に決定的に依存する。
これをK-FADE(K-FAC for Distribution Erasure)と呼ぶ。
We evaluation on the WMDP and ToFU benchmarks showed that K-FADE suppresss outputs from the forget set and almosts, in output space, the results of retraining without the forget set。
重要な点として、我々の手法は、retainerセットの出力を以前の方法よりも小さく変更しながらこれを行う。
これは、K-FADEがモデル全体の出力の制約をモデルの重みの制約に変換するためである。
さらに、K-FADEが計算したアンラーニング更新は、モデルがさらなるトレーニングを受けた場合、後で再適用することができるため、アンラーニングは安価に維持できる。
関連論文リスト
- Toward Reliable Machine Unlearning: Theory, Algorithms, and Evaluation [1.7767466724342065]
本稿では,SOTA MIAスコアに基づく画像分類の最先端手法を超越したAdrial Machine UNlearning(AMUN)を提案する。
既存の手法は、最寄りの会員推定攻撃(MIA-NN)を導入して、再訓練されたモデルの動作を再現できないことを示す。
そこで我々は,スクラッチから再学習したモデルが生成する残りのクラスに対する分布を,クラス入力に対して近似することで,このリークを緩和する微調整対象を提案する。
論文 参考訳(メタデータ) (2025-12-07T20:57:25Z) - Distillation Robustifies Unlearning [36.27570321651185]
モデルのトレーニングは、基礎となる機能をそのまま残しながら、インプット・アウトプットの動作を大幅に変更できることを示す。
本研究では,未学習のモデルを自身のノイズコピーに蒸留するスケーラブルな手法であるUnlearn-Noise-Distill-on-Outputs (UNDO)を提案する。
論文 参考訳(メタデータ) (2025-06-06T17:58:54Z) - Train with Perturbation, Infer after Merging: A Two-Stage Framework for Continual Learning [57.514786046966265]
textbfPerturb-and-Merge(P&M)は,モデルマージをCLパラダイムに統合し,忘れを緩和する新しい連続学習フレームワークである。
提案手法は,複数の連続学習ベンチマークデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-05-28T14:14:19Z) - Attribute-to-Delete: Machine Unlearning via Datamodel Matching [65.13151619119782]
機械学習 -- 事前訓練された機械学習モデルで、小さな"ターゲットセット"トレーニングデータを効率的に削除する -- は、最近関心を集めている。
最近の研究では、機械学習技術はこのような困難な環境では耐えられないことが示されている。
論文 参考訳(メタデータ) (2024-10-30T17:20:10Z) - Single Parent Family: A Spectrum of Family Members from a Single Pre-Trained Foundation Model [20.054342930450055]
本稿では,大規模言語モデルの圧縮に適したプログレッシブ・ローランク分解法(PLRD)を提案する。
PLRDは計算オーバーヘッドとエネルギー消費を大幅に削減する。
この結果から,PLRD は LLM の効率的なスケーリングのための新しい標準となる可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-28T15:27:57Z) - Towards Stable Machine Learning Model Retraining via Slowly Varying Sequences [6.067007470552307]
そこで本研究では,リトレーニングを繰り返して安定なモデル列を見つけるためのモデルに依存しないフレームワークを提案する。
最適モデルの復元が保証される混合整数最適化の定式化を開発する。
平均的に、予測力の2%の低下は、安定性の30%の改善につながることが判明した。
論文 参考訳(メタデータ) (2024-03-28T22:45:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。