論文の概要: Probing Knowledge Holes in Unlearned LLMs
- arxiv url: http://arxiv.org/abs/2511.00030v1
- Date: Mon, 27 Oct 2025 03:11:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.524307
- Title: Probing Knowledge Holes in Unlearned LLMs
- Title(参考訳): 未学習LLMにおける知識ホールの探索
- Authors: Myeongseob Ko, Hoang Anh Just, Charles Fleming, Ming Jin, Ruoxi Jia,
- Abstract要約: 機械学習は、事前学習中に吸収された不要な知識を選択的に除去するための、一般的な技術的ソリューションとして登場した。
標準ベンチマークがキャプチャーに失敗する、意図しない無意識な知識の損失を、無学習が必然的に生み出す可能性があることに私たちは気付きました。
本稿では、未学習コンテンツのすぐ隣と潜在的な障害の幅広い領域の両方を探索するテストケース生成フレームワークを提案する。
- 参考スコア(独自算出の注目度): 23.377732810945172
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine unlearning has emerged as a prevalent technical solution for selectively removing unwanted knowledge absorbed during pre-training, without requiring full retraining. While recent unlearning techniques can effectively remove undesirable content without severely compromising performance on standard benchmarks, we find that they may inadvertently create ``knowledge holes'' -- unintended losses of benign knowledge that standard benchmarks fail to capture. To probe where unlearned models reveal knowledge holes, we propose a test case generation framework that explores both immediate neighbors of unlearned content and broader areas of potential failures. Our evaluation demonstrates significant hidden costs of unlearning: up to 98.7\% of the test cases yield irrelevant or nonsensical responses from unlearned models, despite being answerable by the pretrained model. These findings necessitate rethinking the conventional approach to evaluating knowledge preservation in unlearning, moving beyond standard, static benchmarks.
- Abstract(参考訳): マシンアンラーニングは、完全な再トレーニングを必要とせず、事前トレーニング中に吸収された不要な知識を選択的に除去する、一般的な技術的ソリューションとして登場した。
最近の未学習のテクニックは、標準ベンチマークのパフォーマンスを著しく損なうことなく、望ましくないコンテンツを効果的に除去することができるが、彼らは必然的に‘知識の穴’('knowledge hole'')を作るかもしれない。
未知のモデルが知識ホールを明らかにする場所を探索するために、未学習コンテンツのすぐ隣と潜在的な障害の幅広い領域の両方を探索するテストケース生成フレームワークを提案する。
テストケースの98.7%は、事前学習モデルで回答できるにもかかわらず、未学習モデルから無関係または無意味な反応をもたらす。
これらの知見は、標準の静的ベンチマークを超えて、未学習の知識保存を評価する従来のアプローチを再考する必要がある。
関連論文リスト
- Reference-Specific Unlearning Metrics Can Hide the Truth: A Reality Check [60.77691669644931]
本研究では,非学習モデルと参照モデル間の分布類似度を測定する新しい尺度であるFADE(Functional Alignment for Distributional Equivalence)を提案する。
FADEは出力分布全体の機能的アライメントをキャプチャし、真の未学習の原則的評価を提供する。
これらの知見は、現在の評価実践における根本的なギャップを明らかにし、FADEが真に効果的な未学習手法を開発し評価するための、より堅牢な基盤を提供することを示した。
論文 参考訳(メタデータ) (2025-10-14T20:50:30Z) - Scalable and Robust LLM Unlearning by Correcting Responses with Retrieved Exclusions [49.55618517046225]
Webスケールのコーパスリスクを記憶し、センシティブな情報を暴露する言語モデル。
本稿では,新しいアンラーニングフレームワークであるCorrective Unlearning with Retrieved Exclusions (CURE)を提案する。
CUREは、リークのモデル出力を確認し、安全な応答に修正する。
論文 参考訳(メタデータ) (2025-09-30T09:07:45Z) - Unlearning That Lasts: Utility-Preserving, Robust, and Almost Irreversible Forgetting in LLMs [31.768387661474904]
大規模言語モデル(LLM)におけるアンラーニングでは、事前訓練されたモデルから特定の情報を正確に除去する。
これは、事前訓練中に取得した個人データや有害な知識を削除することで、LLMの安全性を確保するために重要である。
JensUnを導入し、Jensen-Shannon Divergenceをセットを忘れたり、保持したりするためのトレーニングの目的として活用する。
大規模な実験では、JensUnは競合するメソッドよりも忘れやすいトレードオフを実現し、再学習に強いレジリエンスを示しています。
論文 参考訳(メタデータ) (2025-09-02T20:38:53Z) - Prompt Attacks Reveal Superficial Knowledge Removal in Unlearning Methods [0.9999629695552196]
素早い攻撃下では,特定の機械学習手法が失敗する可能性があることを実証する。
出力ベース,ロジットベース,プローブ分析を用いて,3つのモデルファミリーにまたがる8つのアンラーニング手法を体系的に評価した。
論文 参考訳(メタデータ) (2025-06-11T23:36:30Z) - Verifying Robust Unlearning: Probing Residual Knowledge in Unlearned Models [10.041289551532804]
本稿では,ロバスト・アンラーニングの概念を導入し,モデルの再学習と敵の回復に対する抵抗性を確実にする。
アンラーニング手法がこのセキュリティ基準を満たしているかどうかを実証的に評価するために,アンラーニングマッピング攻撃(UMA)を提案する。
UMAは、敵クエリを使って忘れられたトレースのモデルを積極的に探索する。
論文 参考訳(メタデータ) (2025-04-21T01:56:15Z) - Erasing Without Remembering: Implicit Knowledge Forgetting in Large Language Models [81.62767292169225]
我々は,その一般化に着目して,大規模言語モデルにおける知識の忘れについて検討する。
確率摂動に基づく新しいアンラーニングパラダイムであるPerMUを提案する。
TOFU、Harry Potter、ZsRE、WMDP、MUSEなど、さまざまなデータセットで実験が行われている。
論文 参考訳(メタデータ) (2025-02-27T11:03:33Z) - RESTOR: Knowledge Recovery in Machine Unlearning [71.75834077528305]
Webスケールコーパスでトレーニングされた大規模な言語モデルは、プライベートまたはセンシティブな情報を含むことができる。
このようなデータポイントの効果を排除するために、いくつかの機械学習アルゴリズムが提案されている。
機械学習評価のためのRESTORフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-31T20:54:35Z) - UnUnlearning: Unlearning is not sufficient for content regulation in advanced generative AI [50.61495097098296]
大規模言語モデル(LLM)におけるアンラーニングのパラダイムを再考する。
未学習の概念を導入し、未学習の知識を文脈内で再導入する。
我々は、不寛容な知識に対するコンテンツフィルタリングが不可欠であり、正確な未学習スキームでさえ、効果的なコンテンツ規制には不十分であると主張している。
論文 参考訳(メタデータ) (2024-06-27T10:24:35Z) - R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。
事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。
我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-16T08:45:44Z) - Do Not Forget to Attend to Uncertainty while Mitigating Catastrophic
Forgetting [29.196246255389664]
ディープラーニングモデルの大きな制限の1つは、漸進的な学習シナリオにおいて、破滅的な忘れに直面していることだ。
ベイズ式を定式化して,不確実性をモデル化する。
漸進的な学習問題に対処するために、自己認識フレームワークも組み込んでいます。
論文 参考訳(メタデータ) (2021-02-03T06:54:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。