論文の概要: On the Impossibility of Retrain Equivalence in Machine Unlearning
- arxiv url: http://arxiv.org/abs/2510.16629v2
- Date: Wed, 29 Oct 2025 21:20:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.465162
- Title: On the Impossibility of Retrain Equivalence in Machine Unlearning
- Title(参考訳): 機械学習における再訓練等価性の欠如について
- Authors: Jiatong Yu, Yinghui He, Anirudh Goyal, Sanjeev Arora,
- Abstract要約: 機械学習は、モデルの出力に関する特定のトレーニングデータの"影響"を選択的に除去しようとする。
理想的なゴールは、保持されたデータのみに基づいて、スクラッチからトレーニングされたモデルと同一のトレーニング等価性である。
現代のパイプラインは、しばしば多段階のトレーニングを伴い、各ステージは異なるデータ分散と目的を持っている。
- 参考スコア(独自算出の注目度): 43.39599739799909
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine unlearning seeks to selectively remove the "influence" of specific training data on a model's outputs. The ideal goal is Retrain Equivalence--behavior identical to a model trained from scratch on only the retained data. This goal was formulated for models trained on i.i.d. data batches, but modern pipelines often involve multi-stage training, with each stage having a distinct data distribution and objective. Examples include LLM fine-tuning for alignment, reasoning ability, etc. Our study shows via theory and experiments that this shift to multi-stage training introduces a fundamental barrier for machine unlearning. The theory indicates that the outcome of local unlearning--methods that only use gradients computed on the forget set--is path-dependent. That is, a model's behavior during unlearning is influenced by the order of its training stages during learning, making it impossible for path-oblivious algorithms to universally achieve Retrain Equivalence. We empirically demonstrate the same phenomenon in LLM post-training across Llama and Qwen models (1B to 14B) with gradient ascent, NPO, and SimNPO local unlearning algorithms. Models fine-tuned via different orderings of identical training stages diverge in behavior during unlearning, with the degradation in GSM8K accuracy after unlearning varying by over 20% across paths. We also observe that some learning paths consistently produce models that unlearn slowly. During unlearning, whether the probability mass gets squeezed into paraphrasing or alternative concepts is also path-dependent. These results consistently show that Retrain Equivalence is an ill-posed target for local unlearning algorithms, so long as the target models are trained in stages. In situations where access to models' training histories is hard, the current work calls for rethinking the definition and desiderata of machine unlearning.
- Abstract(参考訳): 機械学習は、モデルの出力に関する特定のトレーニングデータの"影響"を選択的に除去しようとする。
理想的なゴールは、保持されたデータのみに基づいて、スクラッチからトレーニングされたモデルと同一のトレーニング等価性である。
このゴールは、すなわち、データバッチでトレーニングされたモデルで定式化されたが、現代のパイプラインは、しばしば多段階のトレーニングを伴い、各ステージはデータ分散と目的が異なる。
例えば、アライメントのためのLCMファインチューニング、推論能力などです。
本研究は、この多段階学習への移行が、機械学習の基本的な障壁をもたらすという理論と実験を通じて示している。
この理論は、ローカルな未学習の結果、つまり、忘れられた集合上で計算された勾配のみを使用するメソッドがパスに依存していることを示している。
すなわち、学習中のモデルの振舞いは、学習中のトレーニング段階の順序に影響され、パス公開アルゴリズムがリトレーニング等価性を普遍的に達成することは不可能である。
Llama と Qwen モデル (1B から 14B) における LLM 後の学習において, 勾配上昇, NPO および SimNPO の局所的未学習アルゴリズムを用いて, 同様の現象を実証的に示す。
同一の訓練段階の異なる順序で微調整されたモデルは、未学習時の動作にばらつき、未学習後のGSM8Kの精度はパス毎に20%以上低下する。
また、学習経路によっては、ゆっくりと学習されるモデルが一貫して生成されることも観察しています。
未学習の間、確率質量がパラフレーズ化されるか、代替概念がパス依存である。
これらの結果は、ターゲットモデルが段階的にトレーニングされる限り、Retrain Equivalenceがローカルな未学習アルゴリズムの不適切なターゲットであることを一貫して示している。
モデルのトレーニング履歴へのアクセスが難しい状況では、現在の作業では、機械学習の定義とデシラタを再考する必要がある。
関連論文リスト
- How Does Overparameterization Affect Machine Unlearning of Deep Neural Networks? [1.573034584191491]
モデルパラメータ化レベルがディープニューラルネットワーク(DNN)の学習に与える影響を示す。
近年の文献からいくつかの未学習手法の検証に基づくチューニングを定義する。
論文 参考訳(メタデータ) (2025-03-11T17:21:26Z) - What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Attribute-to-Delete: Machine Unlearning via Datamodel Matching [65.13151619119782]
機械学習 -- 事前訓練された機械学習モデルで、小さな"ターゲットセット"トレーニングデータを効率的に削除する -- は、最近関心を集めている。
最近の研究では、機械学習技術はこのような困難な環境では耐えられないことが示されている。
論文 参考訳(メタデータ) (2024-10-30T17:20:10Z) - Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning
Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。
課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。
我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。
トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-12-07T07:17:24Z) - Diffusion-Model-Assisted Supervised Learning of Generative Models for
Density Estimation [10.793646707711442]
本稿では,密度推定のための生成モデルを訓練するためのフレームワークを提案する。
スコアベース拡散モデルを用いてラベル付きデータを生成する。
ラベル付きデータが生成されると、シンプルな完全に接続されたニューラルネットワークをトレーニングして、教師付き方法で生成モデルを学ぶことができます。
論文 参考訳(メタデータ) (2023-10-22T23:56:19Z) - On the Necessity of Auditable Algorithmic Definitions for Machine
Unlearning [13.149070833843133]
機械学習、すなわち、トレーニングデータのいくつかを忘れるモデルを持つことは、プライバシー法が忘れられる権利の変種を促進するにつれ、ますます重要になっている。
まず、ほぼ未学習のモデルが正確に訓練されたモデルに近いことを証明しようとする、近似的未学習の定義は、異なるデータセットを用いて同じモデルを得ることができるため、正しくないことを示す。
そして、正確なアンラーニングアプローチに目を向け、アンラーニングのクレームの検証方法を尋ねます。
論文 参考訳(メタデータ) (2021-10-22T16:16:56Z) - Certifiable Machine Unlearning for Linear Models [1.484852576248587]
機械学習は、トレーニングされたトレーニングデータのサブセットが削除された後、機械学習(ML)モデルを更新するタスクである。
本稿では,線形モデルに対する3つの非学習手法について実験的に検討する。
論文 参考訳(メタデータ) (2021-06-29T05:05:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。