論文の概要: Existing Large Language Model Unlearning Evaluations Are Inconclusive
- arxiv url: http://arxiv.org/abs/2506.00688v1
- Date: Sat, 31 May 2025 19:43:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.483854
- Title: Existing Large Language Model Unlearning Evaluations Are Inconclusive
- Title(参考訳): 既存の大規模言語モデルによる未学習評価は決定的ではない
- Authors: Zhili Feng, Yixuan Even Xu, Alexander Robey, Robert Kirk, Xander Davies, Yarin Gal, Avi Schwarzschild, J. Zico Kolter,
- Abstract要約: いくつかの評価では、モデルにかなりの新しい情報を導入し、真の未学習のパフォーマンスを隠蔽する可能性があることを示す。
評価結果はタスクによって大きく異なることを示し、現在の評価ルーチンの一般化性を損なうことを示した。
今後の未学習評価には,情報注入の最小化とタスク認識のダウンストリームという2つの原則を提案する。
- 参考スコア(独自算出の注目度): 105.55899615056573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine unlearning aims to remove sensitive or undesired data from large language models. However, recent studies suggest that unlearning is often shallow, claiming that removed knowledge can easily be recovered. In this work, we critically examine standard unlearning evaluation practices and uncover key limitations that shake our trust in those findings. First, we show that some evaluations introduce substantial new information into the model, potentially masking true unlearning performance by re-teaching the model during testing. Second, we demonstrate that evaluation outcomes vary significantly across tasks, undermining the generalizability of current evaluation routines. Finally, we find that many evaluations rely on spurious correlations, making their results difficult to trust and interpret. Taken together, these issues suggest that current evaluation protocols may both overstate and understate unlearning success. To address this, we propose two principles for future unlearning evaluations: minimal information injection and downstream task awareness. We validate these principles through a series of targeted experiments, showing how violations of each can lead to misleading conclusions.
- Abstract(参考訳): 機械学習は、大規模な言語モデルからセンシティブまたは望ましくないデータを除去することを目的としている。
しかし、最近の研究では、未学習はしばしば浅く、除去された知識は容易に回収できると主張している。
本研究では、標準的な未学習評価プラクティスを批判的に検証し、これらの発見に対する信頼を揺さぶる鍵となる限界を明らかにする。
まず,モデルに新たな情報を導入し,テスト中にモデルを再教育することで,真の未学習のパフォーマンスを隠蔽する可能性を示す。
第2に、評価結果がタスクによって大きく異なることを示し、現在の評価ルーチンの一般化性を損なうことを示した。
最後に、多くの評価が突発的な相関に依存しており、結果の信頼と解釈が難しいことが判明した。
これらの問題を総合すると、現在の評価プロトコルは、未学習の成功を誇張し、未学習の成功を暗示している可能性があることを示唆している。
これを解決するために,情報注入の最小化とタスク認識の下流化という,将来の未学習評価のための2つの原則を提案する。
対象とする一連の実験を通じて、これらの原則を検証し、それぞれの違反がどのように誤った結論を導き出すかを示す。
関連論文リスト
- Are We Truly Forgetting? A Critical Re-examination of Machine Unlearning Evaluation Protocols [14.961054239793356]
本稿では,下流のタスククラスと意味的類似性を示すクラスを忘れる,厳密なアンラーニング評価手法を提案する。
われわれのベンチマークは、現実的な条件下での未学習アルゴリズム評価のための標準化されたプロトコルとして機能することを願っている。
論文 参考訳(メタデータ) (2025-03-10T07:11:34Z) - ReLearn: Unlearning via Learning for Large Language Models [64.2802606302194]
本研究では、効果的なアンラーニングのためのデータ拡張および微調整パイプラインであるReLearnを提案する。
このフレームワークでは、知識レベルの保存を測定するために、知識獲得率(KFR)と知識保持率(KRR)を導入している。
実験の結果,ReLearnは高品質な出力を保ちながら,目標とするリセットを実現することができた。
論文 参考訳(メタデータ) (2025-02-16T16:31:00Z) - Holistic Unlearning Benchmark: A Multi-Faceted Evaluation for Text-to-Image Diffusion Model Unlearning [8.831339626121848]
概念アンラーニングは、非倫理的または有害なテキスト・ツー・イメージ拡散モデルの使用に対する有望な解決策である。
我々のベンチマークでは、33のターゲットコンセプトがカバーされており、1概念あたり16,000のプロンプトが含まれており、Celebrity、Style、Intellectual Property、NSFWの4つのカテゴリにまたがっている。
本研究は,全ての評価基準において1つの方法が排他的でないことを明らかにする。
論文 参考訳(メタデータ) (2024-10-08T03:30:39Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - A Call to Reflect on Evaluation Practices for Failure Detection in Image
Classification [0.491574468325115]
本稿では,信頼度評価関数のベンチマーク化を初めて実現した大規模実証的研究について述べる。
簡便なソフトマックス応答ベースラインを全体の最高の実行方法として明らかにすることは、現在の評価の劇的な欠点を浮き彫りにする。
論文 参考訳(メタデータ) (2022-11-28T12:25:27Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Latent Opinions Transfer Network for Target-Oriented Opinion Words
Extraction [63.70885228396077]
資源豊富なレビュー評価分類データセットから低リソースタスクTOWEへ意見知識を伝達する新しいモデルを提案する。
我々のモデルは、他の最先端手法よりも優れた性能を達成し、意見の知識を伝達することなく、ベースモデルを大幅に上回る。
論文 参考訳(メタデータ) (2020-01-07T11:50:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。