論文の概要: REBEL: Hidden Knowledge Recovery via Evolutionary-Based Evaluation Loop
- arxiv url: http://arxiv.org/abs/2602.06248v1
- Date: Thu, 05 Feb 2026 22:54:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.148212
- Title: REBEL: Hidden Knowledge Recovery via Evolutionary-Based Evaluation Loop
- Title(参考訳): REBEL:進化的評価ループによる隠れた知識回復
- Authors: Patryk Rybak, Paweł Batorski, Paul Swoboda, Przemysław Spurek,
- Abstract要約: LLMの機械学習は、訓練されたモデルから機密データや著作権データを除去することを目的としている。
標準的な評価基準は、真の知識の除去のために表面的な情報抑圧を間違えることの多い良心的なクエリに依存している。
本稿では,未学習データの復元がまだ可能であるかどうかを調査するために設計された,敵対的プロンプト生成のための進化的アプローチであるREBELを紹介する。
- 参考スコア(独自算出の注目度): 11.291998503454854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine unlearning for LLMs aims to remove sensitive or copyrighted data from trained models. However, the true efficacy of current unlearning methods remains uncertain. Standard evaluation metrics rely on benign queries that often mistake superficial information suppression for genuine knowledge removal. Such metrics fail to detect residual knowledge that more sophisticated prompting strategies could still extract. We introduce REBEL, an evolutionary approach for adversarial prompt generation designed to probe whether unlearned data can still be recovered. Our experiments demonstrate that REBEL successfully elicits ``forgotten'' knowledge from models that seemed to be forgotten in standard unlearning benchmarks, revealing that current unlearning methods may provide only a superficial layer of protection. We validate our framework on subsets of the TOFU and WMDP benchmarks, evaluating performance across a diverse suite of unlearning algorithms. Our experiments show that REBEL consistently outperforms static baselines, recovering ``forgotten'' knowledge with Attack Success Rates (ASRs) reaching up to 60% on TOFU and 93% on WMDP. We will make all code publicly available upon acceptance. Code is available at https://github.com/patryk-rybak/REBEL/
- Abstract(参考訳): LLMの機械学習は、訓練されたモデルから機密データや著作権データを除去することを目的としている。
しかし、現在の未学習法の真の有効性は依然として不明である。
標準的な評価基準は、真の知識の除去のために表面的な情報抑圧を間違えることの多い良心的なクエリに依存している。
このような指標は、より洗練されたプロンプト戦略がまだ抽出できるような残余の知識を検出できない。
本稿では,未学習データの復元がまだ可能であるかどうかを調査するために設計された,敵対的プロンプト生成のための進化的アプローチであるREBELを紹介する。
我々の実験では、REBELが標準のアンラーニングベンチマークで忘れられているように見えるモデルから「forgotten」の知識を引き出すことに成功した。
我々はTOFUとWMDPベンチマークのサブセットでフレームワークを検証し、さまざまなアンラーニングアルゴリズムのパフォーマンスを評価する。
実験の結果,REBEL は静的ベースラインを常に上回り,攻撃成功率 (ASR) による ` `forgotten' の知識は TOFU では60%,WMDP では 93% に達することがわかった。
受け入れ次第、すべてのコードを公開します。
コードはhttps://github.com/patryk-rybak/REBEL/で入手できる。
関連論文リスト
- Leak@$k$: Unlearning Does Not Make LLMs Forget Under Probabilistic Decoding [18.830386174815583]
我々は,既存の未学習手法のほとんどすべてが,実際には真の忘れを達成できないことを示す。
textttleak@$k$は、忘れられた知識が再び現れる可能性を定量化する新しいメタ評価指標である。
論文 参考訳(メタデータ) (2025-11-07T02:30:05Z) - Prompt Attacks Reveal Superficial Knowledge Removal in Unlearning Methods [0.9999629695552196]
素早い攻撃下では,特定の機械学習手法が失敗する可能性があることを実証する。
出力ベース,ロジットベース,プローブ分析を用いて,3つのモデルファミリーにまたがる8つのアンラーニング手法を体系的に評価した。
論文 参考訳(メタデータ) (2025-06-11T23:36:30Z) - Erasing Without Remembering: Implicit Knowledge Forgetting in Large Language Models [81.62767292169225]
我々は,その一般化に着目して,大規模言語モデルにおける知識の忘れについて検討する。
確率摂動に基づく新しいアンラーニングパラダイムであるPerMUを提案する。
TOFU、Harry Potter、ZsRE、WMDP、MUSEなど、さまざまなデータセットで実験が行われている。
論文 参考訳(メタデータ) (2025-02-27T11:03:33Z) - ReLearn: Unlearning via Learning for Large Language Models [64.2802606302194]
本研究では、効果的なアンラーニングのためのデータ拡張および微調整パイプラインであるReLearnを提案する。
このフレームワークでは、知識レベルの保存を測定するために、知識獲得率(KFR)と知識保持率(KRR)を導入している。
実験の結果,ReLearnは高品質な出力を保ちながら,目標とするリセットを実現することができた。
論文 参考訳(メタデータ) (2025-02-16T16:31:00Z) - Does Unlearning Truly Unlearn? A Black Box Evaluation of LLM Unlearning Methods [1.9799527196428242]
大規模言語モデルアンラーニングは、LLMが悪意ある目的のために使用するのを防ぐために学んだ有害な情報を除去することを目的としている。
アンラーニングが一般的なモデル能力に顕著な影響を与えていることを示す。
簡単な方法で5ショットのプロンプトやリフレーズを行うことで、未学習ベンチマークの精度が10倍以上に向上する可能性があることを示す。
論文 参考訳(メタデータ) (2024-11-18T22:31:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。