論文の概要: Unlearning Isn't Invisible: Detecting Unlearning Traces in LLMs from Model Outputs
- arxiv url: http://arxiv.org/abs/2506.14003v1
- Date: Mon, 16 Jun 2025 21:03:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.247488
- Title: Unlearning Isn't Invisible: Detecting Unlearning Traces in LLMs from Model Outputs
- Title(参考訳): 未学習は目に見えない:モデル出力からLLMの未学習トレースを検出する
- Authors: Yiwei Chen, Soumyadeep Pal, Yimeng Zhang, Qing Qu, Sijia Liu,
- Abstract要約: 大規模言語モデル(LLM)のための機械学習(MU)は、特定の望ましくないデータや知識を訓練されたモデルから取り除こうとする。
未学習のトレース検出という新たな脆弱性を特定します。
すべてのモデルサイズにわたる未学習トレースの検出において, 誤り関連プロンプトが90%以上の精度で可能であることを示す。
- 参考スコア(独自算出の注目度): 19.08691637612329
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine unlearning (MU) for large language models (LLMs), commonly referred to as LLM unlearning, seeks to remove specific undesirable data or knowledge from a trained model, while maintaining its performance on standard tasks. While unlearning plays a vital role in protecting data privacy, enforcing copyright, and mitigating sociotechnical harms in LLMs, we identify a new vulnerability post-unlearning: unlearning trace detection. We discover that unlearning leaves behind persistent ''fingerprints'' in LLMs, detectable traces in both model behavior and internal representations. These traces can be identified from output responses, even when prompted with forget-irrelevant inputs. Specifically, a simple supervised classifier can reliably determine whether a model has undergone unlearning based solely on its textual outputs. Further analysis shows that these traces are embedded in intermediate activations and propagate nonlinearly to the final layer, forming low-dimensional, learnable manifolds in activation space. Through extensive experiments, we show that forget-relevant prompts enable over 90% accuracy in detecting unlearning traces across all model sizes. Even with forget-irrelevant inputs, large LLMs maintain high detectability, demonstrating the broad applicability of unlearning trace detection. These findings reveal that unlearning leaves measurable signatures, introducing a new risk of reverse-engineering forgotten information when a model is identified as unlearned given an input query. Codes are available at [this URL](https://github.com/OPTML-Group/Unlearn-Trace).
- Abstract(参考訳): 大規模言語モデル(LLM)のための機械学習(MU)は、LLMアンラーニングと呼ばれ、訓練されたモデルから特定の望ましくないデータや知識を取り除き、標準的なタスクのパフォーマンスを維持する。
アンラーニングは、データのプライバシ保護、著作権強化、LLMの社会技術的損害軽減において重要な役割を担っているが、アンラーニング後の新たな脆弱性として、アンラーニング後のトレース検出がある。
モデル動作と内部表現の両方において検出可能なトレースが,LLMの永続的な'フィンガープリント'に残されていることが判明した。
これらのトレースは、出力応答から識別することができる。
具体的には、単純な教師付き分類器が、そのモデルがテキスト出力のみに基づいて未学習を行ったかどうかを確実に判断することができる。
さらなる解析により、これらのトレースは中間活性化に埋め込まれ、最終層に非線形に伝播し、活性化空間において低次元で学習可能な多様体を形成することが示されている。
大規模な実験により、すべてのモデルサイズにわたる未学習トレースを90%以上の精度で検出できることが示されている。
忘れてはならない入力であっても、大きなLLMは高い検出性を維持し、未学習トレース検出の幅広い適用性を示す。
これらの結果から、学習不可能なシグネチャが残っており、入力クエリーによってモデルが未学習であると認識された場合に、忘れられた情報をリバースエンジニアリングする新たなリスクが生じることが明らかとなった。
コードは[このURL]で入手できる(https://github.com/OPTML-Group/Unlearn-Trace)。
関連論文リスト
- Unlearning Isn't Deletion: Investigating Reversibility of Machine Unlearning in LLMs [19.525112900768534]
モデルはしばしば忘れられるが、元の動作は最小限の微調整で迅速に復元できる。
そこで本研究では,PCAに基づく類似性とシフト,カーネルアライメント中心,フィッシャー情報を用いた表現レベル評価フレームワークを提案する。
このツールキットを6つの未学習の手法、3つのドメイン(テキスト、コード、数学)、そして2つのオープンソース LLM に適用することにより、可逆性と不可逆性(inversible)な忘れの区別を明らかにする。
論文 参考訳(メタデータ) (2025-05-22T16:02:10Z) - Information-Guided Identification of Training Data Imprint in (Proprietary) Large Language Models [52.439289085318634]
情報誘導プローブを用いて,プロプライエタリな大規模言語モデル (LLM) で知られているトレーニングデータを識別する方法を示す。
我々の研究は、重要な観察の上に成り立っている: 高次数テキストパスは、暗記プローブにとって良い検索材料である。
論文 参考訳(メタデータ) (2025-03-15T10:19:15Z) - Soft Token Attacks Cannot Reliably Audit Unlearning in Large Language Models [5.807314706494602]
ソフトトークン攻撃(STA)は,大規模言語モデル(LLM)から未学習情報を抽出できることを示す。
我々の研究は、より良い評価基準と、未学習の有効性を評価するためのより適切な監査ツールの必要性を強調している。
論文 参考訳(メタデータ) (2025-02-20T13:22:33Z) - Extracting Unlearned Information from LLMs with Activation Steering [46.16882599881247]
トレーニング後のモデルからセンシティブな知識を取り除くソリューションとして、アンラーニングが登場した。
本研究では,未学習モデルからの正確な情報検索手法として,アクティベーションステアリングを提案する。
その結果,未学習モデルからの正確な情報検索が可能であることが示され,現在の未学習手法の深刻な脆弱性が浮き彫りにされている。
論文 参考訳(メタデータ) (2024-11-04T21:42:56Z) - Catastrophic Failure of LLM Unlearning via Quantization [36.524827594501495]
未学習のモデルに量子化を適用することで、「忘れられた」情報を復元できることを示す。
実用性制約のある未学習の手法では、未学習モデルは、意図された忘れられた知識の21%を完全な精度で保持する。
論文 参考訳(メタデータ) (2024-10-21T19:28:37Z) - Unlearning or Obfuscating? Jogging the Memory of Unlearned LLMs via Benign Relearning [37.061187080745654]
LLMにおけるアンラーニングに対する既存のアプローチは、単純な$textitbenign再ラーニング攻撃の影響を受けやすいことを示す。
小さく、潜在的にゆるやかに関連付けられたデータのみにアクセスすることで、未学習モデルのメモリを'ジョグ'して、未学習の影響を逆転させることができることが分かりました。
論文 参考訳(メタデータ) (2024-06-19T09:03:21Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。