論文の概要: The Unseen Threat: Residual Knowledge in Machine Unlearning under Perturbed Samples
- arxiv url: http://arxiv.org/abs/2601.22359v1
- Date: Thu, 29 Jan 2026 22:10:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.090374
- Title: The Unseen Threat: Residual Knowledge in Machine Unlearning under Perturbed Samples
- Title(参考訳): 未知の脅威: 乱れたサンプル下での機械学習における残酷な知識
- Authors: Hsiang Hsu, Pradeep Niroula, Zichang He, Ivan Brugere, Freddy Lecue, Chun-Fu Chen,
- Abstract要約: また, 未学習のモデルでは, 忘れられたサンプルのわずかな摂動が正しく認識されている可能性が示唆された。
我々は,モデルがサンプルを再認識する能力をペナルティ化する,RURKと呼ばれる微調整戦略を提案する。
- 参考スコア(独自算出の注目度): 16.030881842099998
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine unlearning offers a practical alternative to avoid full model re-training by approximately removing the influence of specific user data. While existing methods certify unlearning via statistical indistinguishability from re-trained models, these guarantees do not naturally extend to model outputs when inputs are adversarially perturbed. In particular, slight perturbations of forget samples may still be correctly recognized by the unlearned model - even when a re-trained model fails to do so - revealing a novel privacy risk: information about the forget samples may persist in their local neighborhood. In this work, we formalize this vulnerability as residual knowledge and show that it is inevitable in high-dimensional settings. To mitigate this risk, we propose a fine-tuning strategy, named RURK, that penalizes the model's ability to re-recognize perturbed forget samples. Experiments on vision benchmarks with deep neural networks demonstrate that residual knowledge is prevalent across existing unlearning methods and that our approach effectively prevents residual knowledge.
- Abstract(参考訳): 機械学習は、特定のユーザデータの影響を概ね排除することで、完全なモデルの再トレーニングを避けるための実用的な代替手段を提供する。
既存の方法では、再訓練されたモデルと統計的に区別できないことによって、未学習を証明しているが、これらの保証は、入力が逆向きに摂動されたときに、モデル出力に自然に拡張されない。
特に、忘れたサンプルのわずかな摂動は、未学習のモデル(再訓練されたモデルがそうしなかったとしても)によって正しく認識される可能性がある。
本研究では,この脆弱性を残留知識として形式化し,高次元設定では避けられないことを示す。
このリスクを軽減するため、我々はRURKと呼ばれる微調整戦略を提案し、モデルが摂動型忘れのサンプルを再認識する能力を罰する。
深層ニューラルネットワークを用いたビジョンベンチマーク実験では、既存の未学習手法で残留知識が普及し、我々のアプローチが残留知識を効果的に防止することを示した。
関連論文リスト
- REMIND: Input Loss Landscapes Reveal Residual Memorization in Post-Unlearning LLMs [0.1784233255402269]
機械学習は、モデルから特定のトレーニングデータの影響を、完全な再トレーニングを必要とせずに取り除くことを目的としている。
未学習データの微妙な残差を検出するための新しい評価手法であるREMINDを提案する。
未学習のデータは、より平坦で、より急なロスランドスケープをもたらす一方、保持または関連のないデータは、より鋭く、より揮発性のあるパターンを示す。
論文 参考訳(メタデータ) (2025-11-06T09:58:19Z) - Probing Knowledge Holes in Unlearned LLMs [23.377732810945172]
機械学習は、事前学習中に吸収された不要な知識を選択的に除去するための、一般的な技術的ソリューションとして登場した。
標準ベンチマークがキャプチャーに失敗する、意図しない無意識な知識の損失を、無学習が必然的に生み出す可能性があることに私たちは気付きました。
本稿では、未学習コンテンツのすぐ隣と潜在的な障害の幅広い領域の両方を探索するテストケース生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-27T03:11:53Z) - Reminiscence Attack on Residuals: Exploiting Approximate Machine Unlearning for Privacy [18.219835803238837]
非学習アルゴリズムは、未学習データのプライバシーを適切に保護できないことを示す。
本稿では,残余と会員のプライバシーの相関を増幅するReminiscence Attack (ReA)を提案する。
我々は,まず深層無学習データトレースを除去し,収束安定性を強制する二相近似学習フレームワークを開発した。
論文 参考訳(メタデータ) (2025-07-28T07:12:12Z) - Verifying Robust Unlearning: Probing Residual Knowledge in Unlearned Models [10.041289551532804]
本稿では,ロバスト・アンラーニングの概念を導入し,モデルの再学習と敵の回復に対する抵抗性を確実にする。
アンラーニング手法がこのセキュリティ基準を満たしているかどうかを実証的に評価するために,アンラーニングマッピング攻撃(UMA)を提案する。
UMAは、敵クエリを使って忘れられたトレースのモデルを積極的に探索する。
論文 参考訳(メタデータ) (2025-04-21T01:56:15Z) - RESTOR: Knowledge Recovery in Machine Unlearning [71.75834077528305]
Webスケールコーパスでトレーニングされた大規模な言語モデルは、プライベートまたはセンシティブな情報を含むことができる。
このようなデータポイントの効果を排除するために、いくつかの機械学習アルゴリズムが提案されている。
機械学習評価のためのRESTORフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-31T20:54:35Z) - Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning
Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。
課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。
我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。
トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-12-07T07:17:24Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - Learning to Unlearn: Instance-wise Unlearning for Pre-trained
Classifiers [71.70205894168039]
そこでは、事前訓練されたモデルからインスタンスのセットに関する情報を削除することを目標としています。
本稿では,1)表現レベルでの忘れを克服するために,敵の例を活用すること,2)不必要な情報を伝播するネットワークパラメータをピンポイントする重み付け指標を活用すること,の2つの方法を提案する。
論文 参考訳(メタデータ) (2023-01-27T07:53:50Z) - Disrupting Model Training with Adversarial Shortcuts [12.31803688544684]
画像分類設定のための概念実証手法を提案する。
本稿では,モデルが意味的特徴よりも非破壊的な信号に頼ることを奨励する,敵対的ショートカットの概念に基づく手法を提案する。
論文 参考訳(メタデータ) (2021-06-12T01:04:41Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。