論文の概要: Leak@$k$: Unlearning Does Not Make LLMs Forget Under Probabilistic Decoding
- arxiv url: http://arxiv.org/abs/2511.04934v1
- Date: Fri, 07 Nov 2025 02:30:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.653617
- Title: Leak@$k$: Unlearning Does Not Make LLMs Forget Under Probabilistic Decoding
- Title(参考訳): Leak@$k$: Unlearningは確率的デコードの下でLLMを偽造しない
- Authors: Hadi Reisizadeh, Jiajun Ruan, Yiwei Chen, Soumyadeep Pal, Sijia Liu, Mingyi Hong,
- Abstract要約: 我々は,既存の未学習手法のほとんどすべてが,実際には真の忘れを達成できないことを示す。
textttleak@$k$は、忘れられた知識が再び現れる可能性を定量化する新しいメタ評価指標である。
- 参考スコア(独自算出の注目度): 18.830386174815583
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unlearning in large language models (LLMs) is critical for regulatory compliance and for building ethical generative AI systems that avoid producing private, toxic, illegal, or copyrighted content. Despite rapid progress, in this work we show that \textit{almost all} existing unlearning methods fail to achieve true forgetting in practice. Specifically, while evaluations of these `unlearned' models under deterministic (greedy) decoding often suggest successful knowledge removal using standard benchmarks (as has been done in the literature), we show that sensitive information reliably resurfaces when models are sampled with standard probabilistic decoding. To rigorously capture this vulnerability, we introduce \texttt{leak@$k$}, a new meta-evaluation metric that quantifies the likelihood of forgotten knowledge reappearing when generating $k$ samples from the model under realistic decoding strategies. Using three widely adopted benchmarks, TOFU, MUSE, and WMDP, we conduct the first large-scale, systematic study of unlearning reliability using our newly defined \texttt{leak@$k$} metric. Our findings demonstrate that knowledge leakage persists across methods and tasks, underscoring that current state-of-the-art unlearning techniques provide only limited forgetting and highlighting the urgent need for more robust approaches to LLM unlearning.
- Abstract(参考訳): 大規模言語モデル(LLM)のアンラーニングは、規制の遵守と、プライベート、有毒、違法、著作権のあるコンテンツの生成を避ける倫理的生成AIシステムの構築に不可欠である。
急速な進歩にもかかわらず、本研究では、既存の未学習メソッドが実際には真の忘れを達成できないことを示す。
具体的には、決定論的(欲求的)なデコードに基づく「未学習」モデルの評価は、標準ベンチマークを用いた知識除去の成功をしばしば示唆するが、モデルが標準確率的デコードでサンプリングされた場合、センシティブな情報が確実に再浮上することを示す。
この脆弱性を厳密に把握するために,現実的な復号戦略の下でモデルから$k$のサンプルを生成する際に,忘れられた知識の再出現の可能性を定量化する,新しいメタ評価指標である \texttt{leak@$k$} を導入する。
広く採用されている3つのベンチマーク、TOFU、MUSE、WMDPを用いて、新たに定義された \texttt{leak@$k$} メトリックを用いて、非学習信頼性の大規模かつ体系的な研究を行う。
我々の研究は、知識リークがメソッドやタスクにまたがって持続していることを示し、現在の最先端のアンラーニング技術が、LLMアンラーニングに対するより堅牢なアプローチに対する緊急の要求を忘れることと強調することのみに制限されていることを強調した。
関連論文リスト
- LLM Unlearning on Noisy Forget Sets: A Study of Incomplete, Rewritten, and Watermarked Data [69.5099112089508]
大規模言語モデル(LLM)は、顕著な生成能力を示すが、機密データを記憶することで倫理的およびセキュリティ上の懸念を引き起こす。
この研究は、ノイズのある忘れセットと呼ばれる、摂動的または低忠実な忘れデータの下での未学習に関する最初の研究を提示する。
コアセマンティック信号が保存されている場合、未学習は摂動に対して驚くほど堅牢である。
論文 参考訳(メタデータ) (2025-10-10T05:10:49Z) - LLM Unlearning Under the Microscope: A Full-Stack View on Methods and Metrics [10.638045151201084]
本稿では,近年のステートフル・アンラーニング法12の原則的分類について述べる。
未学習効果(UE)、実用性維持(UT)、堅牢性(Rob)の評価を再考する。
分析の結果,Multiple-choice question (MCQ) の精度に支配される現在の評価は,狭い視点しか示さないことがわかった。
論文 参考訳(メタデータ) (2025-10-08T23:47:05Z) - Unlearning That Lasts: Utility-Preserving, Robust, and Almost Irreversible Forgetting in LLMs [31.768387661474904]
大規模言語モデル(LLM)におけるアンラーニングでは、事前訓練されたモデルから特定の情報を正確に除去する。
これは、事前訓練中に取得した個人データや有害な知識を削除することで、LLMの安全性を確保するために重要である。
JensUnを導入し、Jensen-Shannon Divergenceをセットを忘れたり、保持したりするためのトレーニングの目的として活用する。
大規模な実験では、JensUnは競合するメソッドよりも忘れやすいトレードオフを実現し、再学習に強いレジリエンスを示しています。
論文 参考訳(メタデータ) (2025-09-02T20:38:53Z) - Large Language Model Unlearning for Source Code [65.42425213605114]
PRODは、LLMがコード生成能力を保ちながら、望ましくないコード内容を忘れることができる新しいアンラーニングアプローチである。
本評価は,既存の未学習アプローチと比較して,忘れ品質とモデルユーティリティのバランスが良好であることを示す。
論文 参考訳(メタデータ) (2025-06-20T16:27:59Z) - Everything You Wanted to Know About LLM-based Vulnerability Detection But Were Afraid to Ask [30.819697001992154]
大規模言語モデルは、自動脆弱性検出のための有望なツールである。
LLMは現実世界の脆弱性を検出するのに本当に効果的か?
本稿では, LLM は (i) 信頼できないこと, (ii) コードパッチに敏感であること, (iii) モデルスケールにまたがる性能評価の3つを, 広く支持されているコミュニティの信念に異議を唱える。
論文 参考訳(メタデータ) (2025-04-18T05:32:47Z) - Erasing Without Remembering: Implicit Knowledge Forgetting in Large Language Models [81.62767292169225]
我々は,その一般化に着目して,大規模言語モデルにおける知識の忘れについて検討する。
確率摂動に基づく新しいアンラーニングパラダイムであるPerMUを提案する。
TOFU、Harry Potter、ZsRE、WMDP、MUSEなど、さまざまなデータセットで実験が行われている。
論文 参考訳(メタデータ) (2025-02-27T11:03:33Z) - ReLearn: Unlearning via Learning for Large Language Models [64.2802606302194]
本研究では、効果的なアンラーニングのためのデータ拡張および微調整パイプラインであるReLearnを提案する。
このフレームワークでは、知識レベルの保存を測定するために、知識獲得率(KFR)と知識保持率(KRR)を導入している。
実験の結果,ReLearnは高品質な出力を保ちながら,目標とするリセットを実現することができた。
論文 参考訳(メタデータ) (2025-02-16T16:31:00Z) - Catastrophic Failure of LLM Unlearning via Quantization [36.524827594501495]
未学習のモデルに量子化を適用することで、「忘れられた」情報を復元できることを示す。
実用性制約のある未学習の手法では、未学習モデルは、意図された忘れられた知識の21%を完全な精度で保持する。
論文 参考訳(メタデータ) (2024-10-21T19:28:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。