論文の概要: Measuring the Depth of LLM Unlearning via Activation Patching
- arxiv url: http://arxiv.org/abs/2605.24614v1
- Date: Sat, 23 May 2026 14:52:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.27496
- Title: Measuring the Depth of LLM Unlearning via Activation Patching
- Title(参考訳): アクティベーション・パッチングによるLLMアンラーニングの深さ測定
- Authors: Jaeung Lee, Dohyun Kim, Jaemin Jo,
- Abstract要約: 大規模言語モデル(LLM)のアンラーニングは、プライバシ保護とAI安全性にとって重要なポストホックメカニズムとして登場した。
既存の出力レベルのメトリクスは、この知識が内部表現から回復可能であることを検出できない。
本研究では,アクティベーションパッチによるアンラーニングの力学深さを定量化する指標として,Unlearning Depth Score (UDS)を提案する。
- 参考スコア(独自算出の注目度): 3.590648050085134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM) unlearning has emerged as a crucial post-hoc mechanism for privacy protection and AI safety, yet auditing whether target knowledge is truly erased remains challenging. Existing output-level metrics fail to detect when this knowledge remains recoverable from internal representations. Recent white-box studies reveal such residual knowledge but often rely on auxiliary training or dataset-specific adaptations, leaving no generalizable metric. To address these limitations, we propose the Unlearning Depth Score (UDS), a metric that quantifies the mechanistic depth of unlearning via activation patching. UDS first identifies layers that encode the target knowledge using a retain model baseline, then measures how much of it is erased in the unlearned model on a 0-1 scale. In a meta-evaluation across 20 metrics on 150 unlearned models spanning 8 methods, UDS achieves the highest faithfulness and robustness, confirming our causal approach as the most reliable for unlearning evaluation. Case studies further reveal that white-box metrics can disagree at the layer level and that erasure depth varies across examples. We provide guidelines for integrating UDS into existing benchmarking frameworks and streamlining the evaluation pipeline. Code and data are available at https://github.com/gnueaj/unlearning-depth-score
- Abstract(参考訳): 大規模言語モデル(LLM)のアンラーニングは、プライバシ保護とAI安全性にとって重要なポストホックメカニズムとして登場したが、ターゲットの知識が本当に消去されるかどうかを監査することは依然として難しい。
既存の出力レベルのメトリクスは、この知識が内部表現から回復可能であることを検出できない。
近年のホワイトボックス研究は、そのような残留した知識を明らかにしているが、しばしば補助的な訓練やデータセット固有の適応に依存しており、一般化可能な計量は残っていない。
これらの制約に対処するために,アクティベーションパッチによる未学習の機械的深さを定量化する指標であるUnlearning Depth Score (UDS)を提案する。
UDSはまず、retainモデルベースラインを使用してターゲットの知識を符号化するレイヤを特定し、それから0-1スケールで、未学習のモデルでどれだけその知識が消去されるかを測定する。
UDSは8つの手法にまたがる150の未学習モデルの20の指標のメタ評価において、最高の忠実度と堅牢性を達成し、我々の因果的アプローチが未学習評価の最も信頼性の高いものであることを確認した。
ケーススタディでは、ホワイトボックスのメトリクスは層レベルでは一致せず、消去深度は例によって異なることが明らかになった。
UDSを既存のベンチマークフレームワークに統合し、評価パイプラインを合理化するためのガイドラインを提供する。
コードとデータはhttps://github.com/gnueaj/unlearning-depth-scoreで公開されている。
関連論文リスト
- REBEL: Hidden Knowledge Recovery via Evolutionary-Based Evaluation Loop [11.291998503454854]
LLMの機械学習は、訓練されたモデルから機密データや著作権データを除去することを目的としている。
標準的な評価基準は、真の知識の除去のために表面的な情報抑圧を間違えることの多い良心的なクエリに依存している。
本稿では,未学習データの復元がまだ可能であるかどうかを調査するために設計された,敵対的プロンプト生成のための進化的アプローチであるREBELを紹介する。
論文 参考訳(メタデータ) (2026-02-05T22:54:56Z) - Leak@$k$: Unlearning Does Not Make LLMs Forget Under Probabilistic Decoding [18.830386174815583]
我々は,既存の未学習手法のほとんどすべてが,実際には真の忘れを達成できないことを示す。
textttleak@$k$は、忘れられた知識が再び現れる可能性を定量化する新しいメタ評価指標である。
論文 参考訳(メタデータ) (2025-11-07T02:30:05Z) - Exploring Structural Degradation in Dense Representations for Self-supervised Learning [84.52554180480037]
自己教師付き学習(SSL)における直感的な現象を観察する。
我々は、この現象を自己教師付きDense Degradation(SDD)と呼び、16の最先端SSLメソッドに一貫した存在を示す。
本稿では,クラス関連尺度と有効次元尺度からなるDense Expression Structure Estimator (DSE)を紹介する。
論文 参考訳(メタデータ) (2025-10-20T08:40:16Z) - Unlearning Isn't Invisible: Detecting Unlearning Traces in LLMs from Model Outputs [23.538087984484207]
大規模言語モデル(LLM)のための機械学習(MU)は、特定の望ましくないデータや知識を訓練されたモデルから取り除こうとする。
未学習のトレース検出という新たな脆弱性を特定します。
非学習トレースを90%以上の精度で検出できることを示す。
論文 参考訳(メタデータ) (2025-06-16T21:03:51Z) - Erasing Without Remembering: Implicit Knowledge Forgetting in Large Language Models [81.62767292169225]
我々は,その一般化に着目して,大規模言語モデルにおける知識の忘れについて検討する。
確率摂動に基づく新しいアンラーニングパラダイムであるPerMUを提案する。
TOFU、Harry Potter、ZsRE、WMDP、MUSEなど、さまざまなデータセットで実験が行われている。
論文 参考訳(メタデータ) (2025-02-27T11:03:33Z) - Unsupervised Continual Anomaly Detection with Contrastively-learned
Prompt [80.43623986759691]
UCADと呼ばれる新しい非教師付き連続異常検出フレームワークを提案する。
このフレームワークは、対照的に学習したプロンプトを通じて、UDAに継続的な学習能力を持たせる。
我々は総合的な実験を行い、教師なし連続異常検出とセグメンテーションのベンチマークを設定した。
論文 参考訳(メタデータ) (2024-01-02T03:37:11Z) - Incremental Object Detection via Meta-Learning [77.55310507917012]
本稿では,段階的タスク間の情報を最適に共有するように,モデル勾配を再形成するメタラーニング手法を提案する。
既存のメタ学習法と比較して,本手法はタスク非依存であり,オブジェクト検出のための高容量モデルに新たなクラスやスケールを段階的に追加することができる。
論文 参考訳(メタデータ) (2020-03-17T13:40:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。