論文の概要: Prompt Attacks Reveal Superficial Knowledge Removal in Unlearning Methods
- arxiv url: http://arxiv.org/abs/2506.10236v2
- Date: Thu, 14 Aug 2025 05:03:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 15:52:16.955455
- Title: Prompt Attacks Reveal Superficial Knowledge Removal in Unlearning Methods
- Title(参考訳): アンラーニング手法における表面的知識除去のためのプロンプト攻撃
- Authors: Yeonwoo Jang, Shariqah Hossain, Ashwin Sreevatsa, Diogo Cruz,
- Abstract要約: 素早い攻撃下では,特定の機械学習手法が失敗する可能性があることを実証する。
出力ベース,ロジットベース,プローブ分析を用いて,3つのモデルファミリーにまたがる8つのアンラーニング手法を体系的に評価した。
- 参考スコア(独自算出の注目度): 0.9999629695552196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we demonstrate that certain machine unlearning methods may fail under straightforward prompt attacks. We systematically evaluate eight unlearning techniques across three model families using output-based, logit-based, and probe analysis to assess the extent to which supposedly unlearned knowledge can be retrieved. While methods like RMU and TAR exhibit robust unlearning, ELM remains vulnerable to specific prompt attacks (e.g., prepending Hindi filler text to the original prompt recovers 57.3% accuracy). Our logit analysis further indicates that unlearned models are unlikely to hide knowledge through changes in answer formatting, given the strong correlation between output and logit accuracy. These findings challenge prevailing assumptions about unlearning effectiveness and highlight the need for evaluation frameworks that can reliably distinguish between genuine knowledge removal and superficial output suppression. To facilitate further research, we publicly release our evaluation framework to easily evaluate prompting techniques to retrieve unlearned knowledge.
- Abstract(参考訳): 本研究では,ある機械学習手法が直接的攻撃で失敗する可能性を実証する。
本研究では,アウトプットベース,ロジットベース,プローブ分析を用いて,3つのモデルファミリーにまたがる8つのアンラーニング手法を体系的に評価し,未学習の知識を検索できる範囲を評価する。
RMUやTARのような手法は堅牢な未学習を示すが、ELMは特定のプロンプト攻撃に対して脆弱なままである(例えば、ヒンディー語のフィラーテキストを元のプロンプトに反映させると57.3%の精度が回復する)。
我々のロジット分析は、出力とロジット精度の相関が強いことを考えると、解答形式の変更による知識の隠蔽は不可能であることを示している。
これらの知見は、未学習の有効性に関する仮定に挑戦し、真の知識の除去と表層出力の抑制を確実に区別できる評価フレームワークの必要性を強調した。
さらなる研究を容易にするため,我々は,未学習の知識を検索する促し技術を容易に評価するための評価フレームワークを公開している。
関連論文リスト
- Step-by-Step Reasoning Attack: Revealing 'Erased' Knowledge in Large Language Models [9.719371187651591]
未学習のテクニックは、その知識を表面下で抑制し、残すことで、正しいプロンプトで取り出すことができる。
我々は、段階的に推論に基づくブラックボックス攻撃であるSleekを導入し、非学習障害を体系的に暴露する。
生成した敵のプロンプトのうち62.5%がWHPの未発表のラマから忘れられたハリー・ポッターの事実を回収し、50%は不当な知識の抑制を暴露した。
論文 参考訳(メタデータ) (2025-06-14T04:22:17Z) - Do LLMs Really Forget? Evaluating Unlearning with Knowledge Correlation and Confidence Awareness [44.37155305736321]
大規模言語モデル(LLM)における意図しない記憶の軽減を目的とした機械学習手法
実世界の知識の暗黙構造をより正確に捉えた知識未学習評価フレームワークを提案する。
私たちのフレームワークは、未学習のパフォーマンスをより現実的で厳格に評価します。
論文 参考訳(メタデータ) (2025-06-06T04:35:19Z) - Existing Large Language Model Unlearning Evaluations Are Inconclusive [105.55899615056573]
いくつかの評価では、モデルにかなりの新しい情報を導入し、真の未学習のパフォーマンスを隠蔽する可能性があることを示す。
評価結果はタスクによって大きく異なることを示し、現在の評価ルーチンの一般化性を損なうことを示した。
今後の未学習評価には,情報注入の最小化とタスク認識のダウンストリームという2つの原則を提案する。
論文 参考訳(メタデータ) (2025-05-31T19:43:00Z) - Unlearning vs. Obfuscation: Are We Truly Removing Knowledge? [15.964825460186393]
難読化と難読化を正式に区別し,探索に基づく評価フレームワークを導入する。
自動生成された複数質問に対するモデル予測分布をフラット化する新しい未学習手法であるDF-MCQを提案する。
実験の結果,DF-MCQは90%以上の拒絶率とランダムな選択レベルの不確実性で未学習を実現することがわかった。
論文 参考訳(メタデータ) (2025-05-05T14:21:08Z) - Verifying Robust Unlearning: Probing Residual Knowledge in Unlearned Models [10.041289551532804]
本稿では,ロバスト・アンラーニングの概念を導入し,モデルの再学習と敵の回復に対する抵抗性を確実にする。
アンラーニング手法がこのセキュリティ基準を満たしているかどうかを実証的に評価するために,アンラーニングマッピング攻撃(UMA)を提案する。
UMAは、敵クエリを使って忘れられたトレースのモデルを積極的に探索する。
論文 参考訳(メタデータ) (2025-04-21T01:56:15Z) - ReLearn: Unlearning via Learning for Large Language Models [64.2802606302194]
本研究では、効果的なアンラーニングのためのデータ拡張および微調整パイプラインであるReLearnを提案する。
このフレームワークでは、知識レベルの保存を測定するために、知識獲得率(KFR)と知識保持率(KRR)を導入している。
実験の結果,ReLearnは高品質な出力を保ちながら,目標とするリセットを実現することができた。
論文 参考訳(メタデータ) (2025-02-16T16:31:00Z) - Redefining Machine Unlearning: A Conformal Prediction-Motivated Approach [11.609354498110358]
機械学習は、訓練されたモデルから特定のデータの影響を取り除こうとする。
本稿では,UA と MIA にまたがる誤分類データには,予測セットに基礎的真理ラベルがまだ含まれていないことを明らかにする。
本稿では,記憶品質をより確実に評価する共形予測に着想を得た2つの新しい指標を提案する。
論文 参考訳(メタデータ) (2025-01-31T18:58:43Z) - RESTOR: Knowledge Recovery in Machine Unlearning [71.75834077528305]
Webスケールコーパスでトレーニングされた大規模な言語モデルは、プライベートまたはセンシティブな情報を含むことができる。
このようなデータポイントの効果を排除するために、いくつかの機械学習アルゴリズムが提案されている。
機械学習評価のためのRESTORフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-31T20:54:35Z) - Do Unlearning Methods Remove Information from Language Model Weights? [0.0]
本研究では,事前学習中に学習した情報に対して,学習前の精度の88%を現在の未学習手法に適用した場合に,アクセス可能な事実の微調整を行うことが可能であることを示す。
また,未学習のロバスト性を評価するアンラーニング評価は,事前学習中に学習した情報を未学習にしようとする評価に比べ,頑健さを過大評価する可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-11T14:06:58Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - A Unified End-to-End Retriever-Reader Framework for Knowledge-based VQA [67.75989848202343]
本稿では,知識に基づくVQAに向けて,エンド・ツー・エンドのレトリバー・リーダー・フレームワークを提案する。
我々は、視覚言語による事前学習モデルからの多モーダルな暗黙の知識に光を当て、知識推論の可能性を掘り下げた。
提案手法では,知識検索のガイダンスを提供するだけでなく,質問応答に対してエラーが発生しやすいケースも排除できる。
論文 参考訳(メタデータ) (2022-06-30T02:35:04Z) - Low-Regret Active learning [64.36270166907788]
トレーニングに最も有用なラベル付きデータポイントを識別するオンライン学習アルゴリズムを開発した。
私たちの仕事の中心は、予測可能な(簡単な)インスタンスの低い後悔を達成するために調整された睡眠専門家のための効率的なアルゴリズムです。
論文 参考訳(メタデータ) (2021-04-06T22:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。