論文の概要: Unlearning's Blind Spots: Over-Unlearning and Prototypical Relearning Attack
- arxiv url: http://arxiv.org/abs/2506.01318v2
- Date: Tue, 03 Jun 2025 07:41:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.034882
- Title: Unlearning's Blind Spots: Over-Unlearning and Prototypical Relearning Attack
- Title(参考訳): Unlearning's Blind Spots: オーバー・アンラーニングとプロトタイプ・リラーニング攻撃
- Authors: SeungBum Ha, Saerom Park, Sung Whan Yoon,
- Abstract要約: 機械学習は、トレーニングされたモデルから指定された忘れ物セットを、コストのかかる再トレーニングなしに抽出することを目的としている。
忘れ物セット付近の保持データを悪化させる「オーバー・アンラーニング」と、忘れた知識を復活させようとする「リラーニング」後のアタック。
筆者らは,<i>OU@epsilon</i>を抑えるために,<i>OU@epsilon</i>をマスクした知識蒸留ペナルティを,<i>OU@epsilon</i>を,<i>OU@epsilon</i>を,<i>OU@epsilon</i>に置き換えた。
- 参考スコア(独自算出の注目度): 4.888434990566421
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine unlearning (MU) aims to expunge a designated forget set from a trained model without costly retraining, yet the existing techniques overlook two critical blind spots: "over-unlearning" that deteriorates retained data near the forget set, and post-hoc "relearning" attacks that aim to resurrect the forgotten knowledge. We first derive the over-unlearning metric OU@{\epsilon}, which represents the collateral damage to the nearby region of the forget set, where the over-unlearning mainly appears. Next, we expose an unforeseen relearning threat on MU, i.e., the Prototypical Relearning Attack, which exploits the per-class prototype of the forget class with just a few samples, and easily restores the pre-unlearning performance. To counter both blind spots, we introduce Spotter, a plug-and-play objective that combines (i) a masked knowledge-distillation penalty on the nearby region of forget set to suppress OU@{\epsilon}, and (ii) an intra-class dispersion loss that scatters forget-class embeddings, neutralizing prototypical relearning attacks. On CIFAR-10, as one of validations, Spotter reduces OU@{\epsilon}by below the 0.05X of the baseline, drives forget accuracy to 0%, preserves accuracy of the retain set within 1% of difference with the original, and denies the prototype-attack by keeping the forget set accuracy within <1%, without accessing retained data. It confirms that Spotter is a practical remedy of the unlearning's blind spots.
- Abstract(参考訳): マシン・アンラーニング(MU)は、トレーニング済みのモデルから指定された忘れ物セットを、コストのかかる再トレーニングなしに取り除くことを目的としているが、既存のテクニックは、2つの重要な盲点を見落としている: 忘れ物セットの近傍で保持されたデータを劣化させる"オーバー・アンラーニング"と、忘れた知識を復活させることを目的としたポストホックな"リラーニング"アタックである。
我々はまず,オーバー・アンラーニングの指標であるOU@{\epsilonを導出する。
次に、MUに対する予期せぬ再学習の脅威、すなわち、少数のサンプルでクラスごとのプロトタイプを悪用し、事前学習のパフォーマンスを復元するプロトタイプ再学習攻撃を明らかにする。
両盲点に対処するために、プラグ&プレイの目的であるSputterを紹介します。
(i)OU@{\epsilonを抑止するために設定された忘れの付近における隠蔽知識蒸留罰
(2) クラス内分散損失は, クラス内埋め込みを散布し, 原型的再学習攻撃を中和する。
CIFAR-10では、バリデーションの1つとして、Sputterはベースラインの0.05X以下でOU@{\epsilonを減らし、左折精度を0%に駆動し、元のものと1%の差で保持セットの精度を保ち、左折セットの精度を1%に抑えることでプロトタイプ攻撃を否定する。
スポッターは、未学習者の盲点の実践的な治療であることを確認した。
関連論文リスト
- From Dormant to Deleted: Tamper-Resistant Unlearning Through Weight-Space Regularization [46.78723722220735]
LLMの最近の未学習手法は再学習攻撃に対して脆弱である。
学習後50%程度から100%近くまで、リザーブセットだけを微調整することで、忘れたセットの精度が回復できるという驚くべき発見をしました。
本稿では,再学習攻撃に対する最先端の耐性を実現する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-05-28T12:53:08Z) - Unlearning or Obfuscating? Jogging the Memory of Unlearned LLMs via Benign Relearning [37.061187080745654]
LLMにおけるアンラーニングに対する既存のアプローチは、単純な$textitbenign再ラーニング攻撃の影響を受けやすいことを示す。
小さく、潜在的にゆるやかに関連付けられたデータのみにアクセスすることで、未学習モデルのメモリを'ジョグ'して、未学習の影響を逆転させることができることが分かりました。
論文 参考訳(メタデータ) (2024-06-19T09:03:21Z) - CovarNav: Machine Unlearning via Model Inversion and Covariance
Navigation [11.222501077070765]
機械学習は、訓練されたモデルに対する特定のトレーニングデータポイントの影響を選択的に除去する重要なテクニックとして登場した。
我々は,このことを忘れないように,CovarNavという3段階のプロセスを導入する。
CIFAR-10とVggface2データセット上でCovarNavを厳格に評価する。
論文 参考訳(メタデータ) (2023-11-21T21:19:59Z) - Learning to Unlearn: Instance-wise Unlearning for Pre-trained
Classifiers [71.70205894168039]
そこでは、事前訓練されたモデルからインスタンスのセットに関する情報を削除することを目標としています。
本稿では,1)表現レベルでの忘れを克服するために,敵の例を活用すること,2)不必要な情報を伝播するネットワークパラメータをピンポイントする重み付け指標を活用すること,の2つの方法を提案する。
論文 参考訳(メタデータ) (2023-01-27T07:53:50Z) - Federated Zero-Shot Learning for Visual Recognition [55.65879596326147]
本稿では,Federated Zero-Shot Learning FedZSLフレームワークを提案する。
FedZSLは、エッジデバイス上の分散データから中心的なモデルを学ぶ。
FedZSLの有効性と堅牢性は、3つのゼロショットベンチマークデータセットで実施された広範な実験によって実証された。
論文 参考訳(メタデータ) (2022-09-05T14:49:34Z) - RelaxLoss: Defending Membership Inference Attacks without Losing Utility [68.48117818874155]
より達成可能な学習目標を持つ緩和された損失に基づく新しい学習フレームワークを提案する。
RelaxLossは、簡単な実装と無視可能なオーバーヘッドのメリットを加えた任意の分類モデルに適用できる。
当社のアプローチはMIAに対するレジリエンスの観点から,常に最先端の防御機構より優れています。
論文 参考訳(メタデータ) (2022-07-12T19:34:47Z) - AGKD-BML: Defense Against Adversarial Attack by Attention Guided
Knowledge Distillation and Bi-directional Metric Learning [61.8003954296545]
Atention Guided Knowledge Distillation and Bi-directional Metric Learning (AGKD-BML) による新しい対人訓練ベースモデルを提案する。
提案したAGKD-BMLモデルは,最先端のアプローチよりも一貫して優れている。
論文 参考訳(メタデータ) (2021-08-13T01:25:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。