論文の概要: An Illusion of Unlearning? Assessing Machine Unlearning Through Internal Representations
- arxiv url: http://arxiv.org/abs/2604.08271v1
- Date: Thu, 09 Apr 2026 14:02:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.949224
- Title: An Illusion of Unlearning? Assessing Machine Unlearning Through Internal Representations
- Title(参考訳): 未学習のイラシオン : 内部表現による未学習の評価
- Authors: Yichen Gao, Altay Unal, Akshay Rangamani, Zhihui Zhu,
- Abstract要約: 最終層の特徴と分類器のミスアライメントが主な原因で,最先端の非学習手法が成功していることを示す。
隠れた特徴は相変わらず差別的であり、単純な線形探索は、ほぼ原産地の精度を回復することができる。
- 参考スコア(独自算出の注目度): 16.917151304941967
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While numerous machine unlearning (MU) methods have recently been developed with promising results in erasing the influence of forgotten data, classes, or concepts, they are also highly vulnerable-for example, simple fine-tuning can inadvertently reintroduce erased concepts. In this paper, we address this contradiction by examining the internal representations of unlearned models, in contrast to prior work that focuses primarily on output-level behavior. Our analysis shows that many state-of-the-art MU methods appear successful mainly due to a misalignment between last-layer features and the classifier, a phenomenon we call feature-classifier misalignment. In fact, hidden features remain highly discriminative, and simple linear probing can recover near-original accuracy. Assuming neural collapse in the original model, we further demonstrate that adjusting only the classifier can achieve negligible forget accuracy while preserving retain accuracy, and we corroborate this with experiments using classifier-only fine-tuning. Motivated by these findings, we propose MU methods based on a class-mean features (CMF) classifier, which explicitly enforces alignment between features and classifiers. Experiments on standard benchmarks show that CMF-based unlearning reduces forgotten information in representations while maintaining high retain accuracy, highlighting the need for faithful representation-level evaluation of MU.
- Abstract(参考訳): 多数の機械学習(MU)手法が最近開発され、忘れられたデータ、クラス、概念の影響を消し去るという有望な結果が得られたが、それらは非常に脆弱であり、例えば、単純な微調整は故意に消去された概念を再導入することができる。
本稿では、主に出力レベルの振る舞いに焦点を当てた先行研究とは対照的に、未学習モデルの内部表現を調べることで、この矛盾に対処する。
解析の結果,主に最終層の特徴と分類器の相違,すなわち特徴分類器の相違が原因で,多くの最先端MU法が成功していることが明らかとなった。
実際、隠れた特徴は非常に差別的であり、単純な線形探索は、ほぼ原産地の精度を回復することができる。
元のモデルで神経崩壊を仮定すると、分類器のみの調整は精度を保ちながら無視できる精度を達成できることがさらに証明され、分類器のみの微調整による実験と相関する。
そこで本研究では,特徴量と分類器のアライメントを明示するクラス平均特徴量分類器(CMF)に基づくMU手法を提案する。
標準ベンチマーク実験により,CMFに基づくアンラーニングは,高い保持精度を維持しつつ,表現における忘れられた情報を低減し,MUの忠実な表現レベル評価の必要性を強調した。
関連論文リスト
- HSFM: Hard-Set-Guided Feature-Space Meta-Learning for Robust Classification under Spurious Correlations [25.503211313768062]
本稿では,特徴空間で直接拡張を行う二段階メタラーニング手法を提案する。
ピクセル空間ではなくバックボーン出力で操作することで、この手法は非常に効率的で安定であり、1つのGPUで数分のトレーニングしか必要としない。
論文 参考訳(メタデータ) (2026-03-31T06:32:56Z) - Decoding the Critique Mechanism in Large Reasoning Models [50.821607345799386]
大規模推論モデル(LRM)は、バックトラックと自己検証メカニズムを示し、中間ステップを修正して正しい解に到達できるようにする。
中間推論ステップに算術ミスを挿入することにより,現在のLEMがエラーからどのように回復するかを検討する。
チェーン・オブ・シークレットを伝播する誤りにもかかわらず、モデルは依然として正しい最終解に達している。
論文 参考訳(メタデータ) (2026-03-17T10:03:30Z) - Suppression or Deletion: A Restoration-Based Representation-Level Analysis of Machine Unlearning [24.40457827994831]
本稿では,機械学習のための復元に基づく新しい分析フレームワークを提案する。
画像分類タスクにおいて、我々のフレームワークを12の非学習手法に適用すると、ほとんどの手法が高い回復率を達成することが分かる。
表現レベルの検証を優先する新たな評価ガイドラインを提案する。
論文 参考訳(メタデータ) (2026-02-18T07:46:30Z) - Reference-Specific Unlearning Metrics Can Hide the Truth: A Reality Check [60.77691669644931]
本研究では,非学習モデルと参照モデル間の分布類似度を測定する新しい尺度であるFADE(Functional Alignment for Distributional Equivalence)を提案する。
FADEは出力分布全体の機能的アライメントをキャプチャし、真の未学習の原則的評価を提供する。
これらの知見は、現在の評価実践における根本的なギャップを明らかにし、FADEが真に効果的な未学習手法を開発し評価するための、より堅牢な基盤を提供することを示した。
論文 参考訳(メタデータ) (2025-10-14T20:50:30Z) - LLM Unlearning on Noisy Forget Sets: A Study of Incomplete, Rewritten, and Watermarked Data [69.5099112089508]
大規模言語モデル(LLM)は、顕著な生成能力を示すが、機密データを記憶することで倫理的およびセキュリティ上の懸念を引き起こす。
この研究は、ノイズのある忘れセットと呼ばれる、摂動的または低忠実な忘れデータの下での未学習に関する最初の研究を提示する。
コアセマンティック信号が保存されている場合、未学習は摂動に対して驚くほど堅牢である。
論文 参考訳(メタデータ) (2025-10-10T05:10:49Z) - Unlearning Isn't Deletion: Investigating Reversibility of Machine Unlearning in LLMs [38.837810490068556]
大規模言語モデル(LLM)におけるアンラーニングは、指定されたデータを削除することを目的としているが、その効果は通常、正確性や複雑度のようなタスクレベルのメトリクスで評価される。
最小限の微調整によって元の動作が容易に復元される間、モデルは忘れることができることを実証する。
この表現可能性の現象は、情報は単に抑圧されているだけであり、真に消去されていないことを示唆している。
論文 参考訳(メタデータ) (2025-05-22T16:02:10Z) - Probably Approximately Precision and Recall Learning [60.00180898830079]
機械学習における重要な課題は、一方的なフィードバックの頻度である。
本稿では,確率的近似(PAC)フレームワークを導入し,各入力をラベルの集合にマッピングする仮説を定めている。
我々は、正のデータのみから学習する新しいアルゴリズムを開発し、実現可能な場合において最適なサンプル複雑性を実現する。
論文 参考訳(メタデータ) (2024-11-20T04:21:07Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Learning Prompt-Enhanced Context Features for Weakly-Supervised Video
Anomaly Detection [37.99031842449251]
弱い監督下での映像異常検出は重大な課題を呈する。
本稿では,効率的なコンテキストモデリングとセマンティック識別性の向上に焦点をあてた,弱教師付き異常検出フレームワークを提案する。
提案手法は,特定の異常なサブクラスの検出精度を大幅に向上させ,その実用的価値と有効性を裏付けるものである。
論文 参考訳(メタデータ) (2023-06-26T06:45:16Z) - Measuring Self-Supervised Representation Quality for Downstream
Classification using Discriminative Features [56.89813105411331]
我々は,SimCLR,SwaV,MoCo,BYOL,DINO,SimSiam,VICReg,Barlow Twinsといった最先端の自己教師型モデルの表現空間について検討した。
本稿では,標本が誤分類される可能性を確実に予測できる教師なしスコアである自己監督表現品質スコア(Qスコア)を提案する。
Q-Score正規化による微調整により、SSLモデルの線形探索精度はImageNet-100で5.8%、ImageNet-1Kで3.7%向上する。
論文 参考訳(メタデータ) (2022-03-03T17:48:23Z) - Prototypical Classifier for Robust Class-Imbalanced Learning [64.96088324684683]
埋め込みネットワークに付加的なパラメータを必要としないtextitPrototypealを提案する。
プロトタイプは、訓練セットがクラス不均衡であるにもかかわらず、すべてのクラスに対してバランスと同等の予測を生成する。
我々は, CIFAR-10LT, CIFAR-100LT, Webvision のデータセットを用いて, プロトタイプが芸術の状況と比較した場合, サブスタンスの改善が得られることを検証した。
論文 参考訳(メタデータ) (2021-10-22T01:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。