論文の概要: Toward Reliable Machine Unlearning: Theory, Algorithms, and Evaluation
- arxiv url: http://arxiv.org/abs/2512.06993v1
- Date: Sun, 07 Dec 2025 20:57:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.628912
- Title: Toward Reliable Machine Unlearning: Theory, Algorithms, and Evaluation
- Title(参考訳): 信頼性のあるマシン・アンラーニングに向けて:理論,アルゴリズム,評価
- Authors: Ali Ebrahimpour-Boroojeny,
- Abstract要約: 本稿では,SOTA MIAスコアに基づく画像分類の最先端手法を超越したAdrial Machine UNlearning(AMUN)を提案する。
既存の手法は、最寄りの会員推定攻撃(MIA-NN)を導入して、再訓練されたモデルの動作を再現できないことを示す。
そこで我々は,スクラッチから再学習したモデルが生成する残りのクラスに対する分布を,クラス入力に対して近似することで,このリークを緩和する微調整対象を提案する。
- 参考スコア(独自算出の注目度): 1.7767466724342065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose new methodologies for both unlearning random set of samples and class unlearning and show that they outperform existing methods. The main driver of our unlearning methods is the similarity of predictions to a retrained model on both the forget and remain samples. We introduce Adversarial Machine UNlearning (AMUN), which surpasses prior state-of-the-art methods for image classification based on SOTA MIA scores. AMUN lowers the model's confidence on forget samples by fine-tuning on their corresponding adversarial examples. Through theoretical analysis, we identify factors governing AMUN's performance, including smoothness. To facilitate training of smooth models with a controlled Lipschitz constant, we propose FastClip, a scalable method that performs layer-wise spectral-norm clipping of affine layers. In a separate study, we show that increased smoothness naturally improves adversarial example transfer, thereby supporting the second factor above. Following the same principles for class unlearning, we show that existing methods fail in replicating a retrained model's behavior by introducing a nearest-neighbor membership inference attack (MIA-NN) that uses the probabilities assigned to neighboring classes to detect unlearned samples and demonstrate the vulnerability of such methods. We then propose a fine-tuning objective that mitigates this leakage by approximating, for forget-class inputs, the distribution over remaining classes that a model retrained from scratch would produce. To construct this approximation, we estimate inter-class similarity and tilt the target model's distribution accordingly. The resulting Tilted ReWeighting(TRW) distribution serves as the desired target during fine-tuning. Across multiple benchmarks, TRW matches or surpasses existing unlearning methods on prior metrics.
- Abstract(参考訳): 本研究では,未学習サンプルとクラス未学習の両方に対する新しい手法を提案し,既存の手法より優れていることを示す。
我々の未学習の手法の主な要因は、予測とリトレーニングされたモデルとの類似性である。
我々は,SOTA MIAスコアに基づく画像分類において,従来の最先端手法を超越したAdversarial Machine UNlearning(AMUN)を導入する。
AMUNは、対応する敵の例を微調整することで、サンプルを忘れることに対するモデルの信頼性を低下させる。
理論的解析により,AMUNのパフォーマンスを左右する要因を同定する。
制御されたリプシッツ定数で滑らかなモデルのトレーニングを容易にするために,アフィン層の層次スペクトルノルムクリッピングを行うスケーラブルなFastClipを提案する。
別の研究では、滑らかさの増加は自然に対向的なサンプル移動を改善し、上記の第2因子を支持できることが示されている。
クラスアンラーニングの同じ原則に従うと、既存の手法は、近隣のクラスに割り当てられた確率を用いて、未学習のサンプルを検出し、そのような手法の脆弱性を実証するMIA-NN(Nest-neighbor Memberation Inference attack)を導入することで、再訓練されたモデルの動作の複製に失敗することを示す。
そこで我々は,スクラッチから再学習したモデルが生成する残りのクラスに対する分布を,クラス入力に対して近似することで,このリークを緩和する微調整対象を提案する。
この近似を構築するために,クラス間の類似性を推定し,対象モデルの分布を傾ける。
結果として生じるTilted ReWeighting(TRW)分布は、微調整時に望ましいターゲットとして機能する。
複数のベンチマークで、TRWは以前のメトリクスで既存の未学習メソッドにマッチするか、超える。
関連論文リスト
- Reference-Specific Unlearning Metrics Can Hide the Truth: A Reality Check [60.77691669644931]
本研究では,非学習モデルと参照モデル間の分布類似度を測定する新しい尺度であるFADE(Functional Alignment for Distributional Equivalence)を提案する。
FADEは出力分布全体の機能的アライメントをキャプチャし、真の未学習の原則的評価を提供する。
これらの知見は、現在の評価実践における根本的なギャップを明らかにし、FADEが真に効果的な未学習手法を開発し評価するための、より堅牢な基盤を提供することを示した。
論文 参考訳(メタデータ) (2025-10-14T20:50:30Z) - On the Necessity of Output Distribution Reweighting for Effective Class Unlearning [9.13515473028423]
モデルが近隣のクラスに割り当てる確率を用いて、未学習のサンプルを検出するMIA-NNによる会員推論攻撃を導入する。
そこで我々は,このプライバシー漏洩を緩和する新たな微調整手法を提案する。
論文 参考訳(メタデータ) (2025-06-25T23:53:56Z) - Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。
本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。
我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文 参考訳(メタデータ) (2025-05-21T07:16:44Z) - AMUN: Adversarial Machine UNlearning [13.776549741449557]
Adversarial Machine UNlearning (AMUN)は、画像分類の最先端(SOTA)手法よりも優れている。
AMUNは、そのモデルに対応する敵の例を微調整することで、忘れサンプルのモデルの信頼性を低下させる。
論文 参考訳(メタデータ) (2025-03-02T14:36:31Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Decoupled Prototype Learning for Reliable Test-Time Adaptation [50.779896759106784]
テスト時間適応(TTA)は、推論中にトレーニング済みのソースモデルをターゲットドメインに継続的に適応させるタスクである。
1つの一般的なアプローチは、推定擬似ラベルによるクロスエントロピー損失を伴う微調整モデルである。
本研究は, 各試料の分類誤差を最小化することで, クロスエントロピー損失の脆弱性がラベルノイズを引き起こすことを明らかにした。
本稿では,プロトタイプ中心の損失計算を特徴とする新しいDPL法を提案する。
論文 参考訳(メタデータ) (2024-01-15T03:33:39Z) - RanPAC: Random Projections and Pre-trained Models for Continual Learning [59.07316955610658]
継続学習(CL)は、古いタスクを忘れずに、非定常データストリームで異なるタスク(分類など)を学習することを目的としている。
本稿では,事前学習モデルを用いたCLの簡潔かつ効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-07-05T12:49:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。