論文の概要: The Erasure Illusion: Stress-Testing the Generalization of LLM Forgetting Evaluation
- arxiv url: http://arxiv.org/abs/2512.19025v1
- Date: Mon, 22 Dec 2025 04:42:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.620223
- Title: The Erasure Illusion: Stress-Testing the Generalization of LLM Forgetting Evaluation
- Title(参考訳): 消去イリュージョン:ストレス試験によるLCM予測評価の一般化
- Authors: Hengrui Jia, Taoran Li, Jonas Guan, Varun Chandrasekaran,
- Abstract要約: 機械学習は、訓練されたモデルから特定のデータの影響を取り除くことを目的としている。
現在のアンラーニングメトリクスは、特定のアンラーニングデータセットでモデルのパフォーマンス劣化を監視して成功を測定する。
本稿では,サロゲートデータセットを生成する自動ストレステストフレームワーク, $tildeD_u$を提案する。
- 参考スコア(独自算出の注目度): 15.252787015786796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine unlearning aims to remove specific data influences from trained models, a capability essential for adhering to copyright laws and ensuring AI safety. Current unlearning metrics typically measure success by monitoring the model's performance degradation on the specific unlearning dataset ($D_u$). We argue that for Large Language Models (LLMs), this evaluation paradigm is insufficient and potentially misleading. Many real-world uses of unlearning--motivated by copyright or safety--implicitly target not only verbatim content in $D_u$, but also behaviors influenced by the broader generalizations the model derived from it. We demonstrate that LLMs can pass standard unlearning evaluation and appear to have ``forgotten'' the target knowledge, while simultaneously retaining strong capabilities on content that is semantically adjacent to $D_u$. This phenomenon indicates that erasing exact sentences does not necessarily equate to removing the underlying knowledge. To address this gap, we propose \name, an automated stress-testing framework that generates a surrogate dataset, $\tilde{D}_u$. This surrogate set is constructed to be semantically derived from $D_u$ yet sufficiently distinct in embedding space. By comparing unlearning metric scores between $D_u$ and $\tilde{D}_u$, we can stress-test the reliability of the metric itself. Our extensive evaluation across three LLM families (Llama-3-8B, Qwen2.5-7B, and Zephyr-7B-$β$), three distinct datasets, and seven standard metrics reveals widespread inconsistencies. We find that current metrics frequently overestimate unlearning success, failing to detect retained knowledge exposed by our stress-test datasets.
- Abstract(参考訳): 機械学習は、トレーニングされたモデルから特定のデータの影響を取り除くことを目的としている。
現在のアンラーニングメトリクスは、通常、特定のアンラーニングデータセット(D_u$)でモデルのパフォーマンス劣化を監視することで成功を測定する。
我々は,Large Language Models (LLMs) に対して,この評価パラダイムは不十分であり,誤解を招く可能性があると主張している。
著作権や安全性によって動機づけられた非学習の現実的な利用は、単純に$D_u$の冗長なコンテンツだけでなく、モデルから派生したより広範な一般化の影響も受けている。
我々は、LLMが標準の未学習評価をパスし、目標とする知識を 'forgotten' とみなし、同時に$D_u$にセマンティックに隣接したコンテンツに強い能力を保持できることを示した。
この現象は、正確な文の消去が、根底にある知識を取り除くのに必ずしも一致するわけではないことを示唆している。
このギャップに対処するために,サロゲートデータセットを生成する自動ストレステストフレームワークである \name, $\tilde{D}_u$ を提案する。
この代理集合は、$D_u$から意味論的に導かれるように構成されるが、埋め込み空間では十分に異なる。
未学習のメトリックスコアを$D_u$と$\tilde{D}_u$で比較することにより、メトリック自体の信頼性をストレステストすることができる。
LLMの3家系(Llama-3-8B, Qwen2.5-7B, Zephyr-7B-$β$)、3つの異なるデータセット、および7つの標準指標にまたがる広範囲な不整合が明らかとなった。
現在の測定値では、未学習の成功を過大評価することが多く、ストレステストデータセットが公開している知識の保持を検出できないことが分かりました。
関連論文リスト
- From Domains to Instances: Dual-Granularity Data Synthesis for LLM Unlearning [22.118481589256632]
BiForgetは高品質な忘れ物セットを合成する自動化フレームワークである。
それ自体がターゲットモデルを利用して、内部の知識分布にマッチするデータを抽出する。
関連性、多様性、効率性のバランスが優れている。
論文 参考訳(メタデータ) (2026-01-07T12:41:07Z) - Leak@$k$: Unlearning Does Not Make LLMs Forget Under Probabilistic Decoding [18.830386174815583]
我々は,既存の未学習手法のほとんどすべてが,実際には真の忘れを達成できないことを示す。
textttleak@$k$は、忘れられた知識が再び現れる可能性を定量化する新しいメタ評価指標である。
論文 参考訳(メタデータ) (2025-11-07T02:30:05Z) - BLUR: A Benchmark for LLM Unlearning Robust to Forget-Retain Overlap [18.68387394444096]
機械学習は、大規模な言語モデル(LLM)の安全性を向上させる可能性を秘めている。
非学習における鍵となる課題は、忘れられた品質(事実上望ましくない情報)のバランスをとることと、品質を維持すること(他の一般的なタスクにおいて優れたパフォーマンスを維持すること)である。
LLM アンラーニングのためのベンチマークである $textttBLUR$ を提示する。
論文 参考訳(メタデータ) (2025-05-28T22:09:04Z) - UniErase: Towards Balanced and Precise Unlearning in Language Models [69.04923022755547]
大規模言語モデル(LLM)は、古い情報問題に対処するために反復的な更新を必要とする。
UniEraseは、知識の未学習と能力保持の間の精度とバランスの取れたパフォーマンスを示す、新しいアンラーニングフレームワークである。
論文 参考訳(メタデータ) (2025-05-21T15:53:28Z) - GUARD: Generation-time LLM Unlearning via Adaptive Restriction and Detection [36.38245533018162]
大規模言語モデル(LLM)は、多様なドメインにまたがる膨大な知識を記憶する強力な能力を示している。
既存の未学習の取り組みは、通常、モデルを忘れデータ、データ保持、キャリブレーションモデルといったリソースで微調整する。
本稿では,LLM生成時の動的アンラーニングを実現するフレームワークであるAdaptive Restriction and Detection (GUARD) による生成時アンラーニングを提案する。
論文 参考訳(メタデータ) (2025-05-19T16:26:58Z) - Erasing Without Remembering: Implicit Knowledge Forgetting in Large Language Models [81.62767292169225]
我々は,その一般化に着目して,大規模言語モデルにおける知識の忘れについて検討する。
確率摂動に基づく新しいアンラーニングパラダイムであるPerMUを提案する。
TOFU、Harry Potter、ZsRE、WMDP、MUSEなど、さまざまなデータセットで実験が行われている。
論文 参考訳(メタデータ) (2025-02-27T11:03:33Z) - S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - A Closer Look at Machine Unlearning for Large Language Models [46.245404272612795]
大型言語モデル(LLM)は機密または著作権のあるコンテンツを記憶し、プライバシーと法的懸念を高める。
LLMの機械学習におけるいくつかの問題について議論し、可能なアプローチについての洞察を提供する。
論文 参考訳(メタデータ) (2024-10-10T16:56:05Z) - Can LLMs Separate Instructions From Data? And What Do We Even Mean By That? [60.50127555651554]
大規模言語モデル(LLM)は、多くの実用的なアプリケーションにおいて印象的な結果を示すが、基本的な安全性機能は欠如している。
これにより、間接的なプロンプトインジェクションのような操作に脆弱になり、一般に安全クリティカルなタスクには適さない。
モデル出力から計算可能な命令データ分離の形式的尺度と経験的変量を導入する。
論文 参考訳(メタデータ) (2024-03-11T15:48:56Z) - Online Selective Classification with Limited Feedback [82.68009460301585]
オンライン学習モデルにおいて、予測者がインスタンスの分類を控える可能性のある選択的分類について検討する。
私たちが考慮している設定の健全な2つの側面は、データが不可避である可能性があるため、データは不可避である可能性があるということです。
smash$tildeO(T1-mu)$ over abstention against Adaptive adversaries. smash$tildeO(T1-mu)$ incurring smash$tildeO(T1-mu)$ over abstention。
論文 参考訳(メタデータ) (2021-10-27T08:00:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。