論文の概要: Suppression or Deletion: A Restoration-Based Representation-Level Analysis of Machine Unlearning
- arxiv url: http://arxiv.org/abs/2602.18505v1
- Date: Wed, 18 Feb 2026 07:46:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.111282
- Title: Suppression or Deletion: A Restoration-Based Representation-Level Analysis of Machine Unlearning
- Title(参考訳): 抑圧・削除: 機械学習の復元に基づく表現レベル分析
- Authors: Yurim Jang, Jaeung Lee, Dohyun Kim, Jaemin Jo, Simon S. Woo,
- Abstract要約: 本稿では,機械学習のための復元に基づく新しい分析フレームワークを提案する。
画像分類タスクにおいて、我々のフレームワークを12の非学習手法に適用すると、ほとんどの手法が高い回復率を達成することが分かる。
表現レベルの検証を優先する新たな評価ガイドラインを提案する。
- 参考スコア(独自算出の注目度): 24.40457827994831
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As pretrained models are increasingly shared on the web, ensuring that models can forget or delete sensitive, copyrighted, or private information upon request has become crucial. Machine unlearning has been proposed to address this challenge. However, current evaluations for unlearning methods rely on output-based metrics, which cannot verify whether information is completely deleted or merely suppressed at the representation level, where suppression is insufficient for true unlearning. To address this gap, we propose a novel restoration-based analysis framework that uses Sparse Autoencoders to identify class-specific expert features in intermediate layers and applies inference-time steering to quantitatively distinguish between suppression and deletion. Applying our framework to 12 major unlearning methods in image classification tasks, we find that most methods achieve high restoration rates of unlearned information, indicating that they only suppress information at the decision-boundary level, while preserving semantic features in intermediate representations. Notably, even retraining from pretrained checkpoints shows high restoration, revealing that robust semantic features inherited from pretraining are not removed by retraining. These results demonstrate that representation-level retention poses significant risks overlooked by output-based metrics, highlighting the need for new unlearning evaluation criteria. We propose new evaluation guidelines that prioritize representation-level verification, especially for privacy-critical applications in the era of pre-trained models.
- Abstract(参考訳): 事前訓練されたモデルがWeb上でますます共有されるにつれて、モデルが要求に応じて機密情報、著作権情報、プライベート情報を忘れたり、削除したりすることが重要になっている。
この課題に対処するために、機械学習が提案されている。
しかし、現在のアンラーニング手法の評価は、真のアンラーニングに不十分な表現レベルで、情報が完全に削除されているか単に抑圧されているかを確認することができない出力ベースのメトリクスに依存している。
このギャップに対処するために、スパースオートエンコーダを用いて中間層におけるクラス固有の専門的特徴を識別し、抑制と削除を定量的に区別するために推論時ステアリングを適用する新しい復元ベース分析フレームワークを提案する。
画像分類タスクにおける12の非学習手法にフレームワークを適用することで、ほとんどの手法が未学習情報の高い復元率を実現し、中間表現における意味的特徴を保ちながら、決定境界レベルの情報のみを抑えることを示す。
特に、事前トレーニングされたチェックポイントからのリトレーニングでさえ高い復元性を示し、事前トレーニングから継承された堅牢なセマンティックな特徴が再トレーニングによって取り除かれないことが明らかになった。
これらの結果から,表現レベルの保持は,新たな未学習評価基準の必要性を浮き彫りにして,アウトプットベースの指標によって見落とされ,重大なリスクをもたらすことが示された。
本稿では,特に事前学習モデルにおけるプライバシクリティカルなアプリケーションにおいて,表現レベルの検証を優先する新たな評価ガイドラインを提案する。
関連論文リスト
- Auditing Language Model Unlearning via Information Decomposition [68.48660428111593]
部分的情報分解(PID)を用いたアンラーニング監査のための解釈可能な情報理論フレームワークを提案する。
非学習前後のモデル表現を比較することにより、相互情報と忘れられたデータとを別個の構成要素に分解し、未学習および残留知識の概念を定式化する。
我々の研究は、言語モデルのより安全なデプロイのための理論的洞察と実行可能なツールを提供する、アンラーニングのための原則付き表現レベル監査を導入している。
論文 参考訳(メタデータ) (2026-01-21T15:51:19Z) - LLM Unlearning on Noisy Forget Sets: A Study of Incomplete, Rewritten, and Watermarked Data [69.5099112089508]
大規模言語モデル(LLM)は、顕著な生成能力を示すが、機密データを記憶することで倫理的およびセキュリティ上の懸念を引き起こす。
この研究は、ノイズのある忘れセットと呼ばれる、摂動的または低忠実な忘れデータの下での未学習に関する最初の研究を提示する。
コアセマンティック信号が保存されている場合、未学習は摂動に対して驚くほど堅牢である。
論文 参考訳(メタデータ) (2025-10-10T05:10:49Z) - Scalable and Robust LLM Unlearning by Correcting Responses with Retrieved Exclusions [49.55618517046225]
Webスケールのコーパスリスクを記憶し、センシティブな情報を暴露する言語モデル。
本稿では,新しいアンラーニングフレームワークであるCorrective Unlearning with Retrieved Exclusions (CURE)を提案する。
CUREは、リークのモデル出力を確認し、安全な応答に修正する。
論文 参考訳(メタデータ) (2025-09-30T09:07:45Z) - Unlearning Isn't Deletion: Investigating Reversibility of Machine Unlearning in LLMs [38.837810490068556]
大規模言語モデル(LLM)におけるアンラーニングは、指定されたデータを削除することを目的としているが、その効果は通常、正確性や複雑度のようなタスクレベルのメトリクスで評価される。
最小限の微調整によって元の動作が容易に復元される間、モデルは忘れることができることを実証する。
この表現可能性の現象は、情報は単に抑圧されているだけであり、真に消去されていないことを示唆している。
論文 参考訳(メタデータ) (2025-05-22T16:02:10Z) - Are We Truly Forgetting? A Critical Re-examination of Machine Unlearning Evaluation Protocols [14.961054239793356]
本稿では,下流のタスククラスと意味的類似性を示すクラスを忘れる,厳密なアンラーニング評価手法を提案する。
われわれのベンチマークは、現実的な条件下での未学習アルゴリズム評価のための標準化されたプロトコルとして機能することを願っている。
論文 参考訳(メタデータ) (2025-03-10T07:11:34Z) - RESTOR: Knowledge Recovery in Machine Unlearning [71.75834077528305]
Webスケールコーパスでトレーニングされた大規模な言語モデルは、プライベートまたはセンシティブな情報を含むことができる。
このようなデータポイントの効果を排除するために、いくつかの機械学習アルゴリズムが提案されている。
機械学習評価のためのRESTORフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-31T20:54:35Z) - Revisiting Machine Unlearning with Dimensional Alignment [46.29161970063835]
そこで本研究では,未知の固有空間間のアライメントを計測し,データセットの保持を行う,機械学習のための新しい評価基準を提案する。
筆者らの枠組みは, 忘れ物から情報を効果的に排除し, 保持物から知識を保存している。
論文 参考訳(メタデータ) (2024-07-25T02:05:15Z) - Partially Blinded Unlearning: Class Unlearning for Deep Networks a Bayesian Perspective [4.31734012105466]
マシン・アンラーニング(英: Machine Unlearning)とは、特定のデータセットやクラスに指定された情報を事前訓練されたモデルから選択的に破棄するプロセスである。
本研究では,事前学習した分類ネットワークから,特定の種類のデータに関連付けられた情報の目的的除去に適した手法を提案する。
本手法は,従来の最先端の未学習手法を超越し,優れた有効性を示す。
論文 参考訳(メタデータ) (2024-03-24T17:33:22Z) - XAL: EXplainable Active Learning Makes Classifiers Better Low-resource Learners [71.8257151788923]
低リソーステキスト分類のための新しい説明可能なアクティブラーニングフレームワーク(XAL)を提案する。
XALは分類器に対して、推論を正当化し、合理的な説明ができないラベルのないデータを掘り下げることを推奨している。
6つのデータセットの実験では、XALは9つの強いベースラインに対して一貫した改善を達成している。
論文 参考訳(メタデータ) (2023-10-09T08:07:04Z) - Learning to Unlearn: Instance-wise Unlearning for Pre-trained
Classifiers [71.70205894168039]
そこでは、事前訓練されたモデルからインスタンスのセットに関する情報を削除することを目標としています。
本稿では,1)表現レベルでの忘れを克服するために,敵の例を活用すること,2)不必要な情報を伝播するネットワークパラメータをピンポイントする重み付け指標を活用すること,の2つの方法を提案する。
論文 参考訳(メタデータ) (2023-01-27T07:53:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。