論文の概要: Prompt Attacks Reveal Superficial Knowledge Removal in Unlearning Methods
- arxiv url: http://arxiv.org/abs/2506.10236v1
- Date: Wed, 11 Jun 2025 23:36:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.494369
- Title: Prompt Attacks Reveal Superficial Knowledge Removal in Unlearning Methods
- Title(参考訳): アンラーニング手法における表面的知識除去のためのプロンプト攻撃
- Authors: Yeonwoo Jang, Shariqah Hossain, Ashwin Sreevatsa, Diogo Cruz,
- Abstract要約: 素早い攻撃を受けると、いくつかの機械学習手法が失敗する可能性があることを示す。
アウトプットベース、ロジットベース、プローブ分析を用いて、未学習の知識がどの程度検索できるかを判断する。
- 参考スコア(独自算出の注目度): 0.9999629695552196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we show that some machine unlearning methods may fail when subjected to straightforward prompt attacks. We systematically evaluate eight unlearning techniques across three model families, and employ output-based, logit-based, and probe analysis to determine to what extent supposedly unlearned knowledge can be retrieved. While methods like RMU and TAR demonstrate robust unlearning, ELM remains vulnerable to specific prompt attacks (e.g., Hindi filler text in original prompt recovering 57.3% accuracy). Our logit analysis also confirms that unlearned models are generally not hiding knowledge by modifying the way the answer is formatted, as the correlation between output and logit accuracy is strong. These results challenge prevailing assumptions about unlearning effectiveness and highlight the need for evaluation frameworks that can reliably distinguish between true knowledge removal and superficial output suppression. We also publicly make available our evaluation framework to easily evaluate prompting techniques to retrieve unlearning knowledge.
- Abstract(参考訳): 本研究では,素早い攻撃を受けると,いくつかの機械学習手法が失敗する可能性があることを示す。
本研究では,3つのモデルファミリーにまたがる8つのアンラーニング手法を体系的に評価し,アウトプットベース,ロジットベース,プローブ分析を用いて,未学習の知識をどの程度検索できるかを判定する。
RMUやTARのような手法は、堅牢なアンラーニングを示すが、ELMは特定のプロンプト攻撃に対して脆弱なままである(例えば、ヒンディー語のフィラーテキストは、元のプロンプトで57.3%の精度を回復している)。
我々のロジット分析では、出力とロジットの精度の相関が強いため、解答の形式を変えることで、未学習のモデルが一般に知識を隠蔽していないことも確認している。
これらの結果は、未学習の有効性に関する仮定に挑戦し、真の知識除去と表面的出力抑制を確実に区別できる評価フレームワークの必要性を強調している。
また、未学習の知識を抽出する技術を容易に評価するための評価フレームワークも公開しています。
関連論文リスト
- Do LLMs Really Forget? Evaluating Unlearning with Knowledge Correlation and Confidence Awareness [44.37155305736321]
大規模言語モデル(LLM)における意図しない記憶の軽減を目的とした機械学習手法
実世界の知識の暗黙構造をより正確に捉えた知識未学習評価フレームワークを提案する。
私たちのフレームワークは、未学習のパフォーマンスをより現実的で厳格に評価します。
論文 参考訳(メタデータ) (2025-06-06T04:35:19Z) - Existing Large Language Model Unlearning Evaluations Are Inconclusive [105.55899615056573]
いくつかの評価では、モデルにかなりの新しい情報を導入し、真の未学習のパフォーマンスを隠蔽する可能性があることを示す。
評価結果はタスクによって大きく異なることを示し、現在の評価ルーチンの一般化性を損なうことを示した。
今後の未学習評価には,情報注入の最小化とタスク認識のダウンストリームという2つの原則を提案する。
論文 参考訳(メタデータ) (2025-05-31T19:43:00Z) - Unlearning vs. Obfuscation: Are We Truly Removing Knowledge? [15.964825460186393]
難読化と難読化を正式に区別し,探索に基づく評価フレームワークを導入する。
自動生成された複数質問に対するモデル予測分布をフラット化する新しい未学習手法であるDF-MCQを提案する。
実験の結果,DF-MCQは90%以上の拒絶率とランダムな選択レベルの不確実性で未学習を実現することがわかった。
論文 参考訳(メタデータ) (2025-05-05T14:21:08Z) - Verifying Robust Unlearning: Probing Residual Knowledge in Unlearned Models [10.041289551532804]
本稿では,ロバスト・アンラーニングの概念を導入し,モデルの再学習と敵の回復に対する抵抗性を確実にする。
アンラーニング手法がこのセキュリティ基準を満たしているかどうかを実証的に評価するために,アンラーニングマッピング攻撃(UMA)を提案する。
UMAは、敵クエリを使って忘れられたトレースのモデルを積極的に探索する。
論文 参考訳(メタデータ) (2025-04-21T01:56:15Z) - Redefining Machine Unlearning: A Conformal Prediction-Motivated Approach [11.609354498110358]
機械学習は、訓練されたモデルから特定のデータの影響を取り除こうとする。
本稿では,UA と MIA にまたがる誤分類データには,予測セットに基礎的真理ラベルがまだ含まれていないことを明らかにする。
本稿では,記憶品質をより確実に評価する共形予測に着想を得た2つの新しい指標を提案する。
論文 参考訳(メタデータ) (2025-01-31T18:58:43Z) - RESTOR: Knowledge Recovery in Machine Unlearning [71.75834077528305]
Webスケールコーパスでトレーニングされた大規模な言語モデルは、プライベートまたはセンシティブな情報を含むことができる。
このようなデータポイントの効果を排除するために、いくつかの機械学習アルゴリズムが提案されている。
機械学習評価のためのRESTORフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-31T20:54:35Z) - Do Unlearning Methods Remove Information from Language Model Weights? [0.0]
本研究では,事前学習中に学習した情報に対して,学習前の精度の88%を現在の未学習手法に適用した場合に,アクセス可能な事実の微調整を行うことが可能であることを示す。
また,未学習のロバスト性を評価するアンラーニング評価は,事前学習中に学習した情報を未学習にしようとする評価に比べ,頑健さを過大評価する可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-11T14:06:58Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - A Unified End-to-End Retriever-Reader Framework for Knowledge-based VQA [67.75989848202343]
本稿では,知識に基づくVQAに向けて,エンド・ツー・エンドのレトリバー・リーダー・フレームワークを提案する。
我々は、視覚言語による事前学習モデルからの多モーダルな暗黙の知識に光を当て、知識推論の可能性を掘り下げた。
提案手法では,知識検索のガイダンスを提供するだけでなく,質問応答に対してエラーが発生しやすいケースも排除できる。
論文 参考訳(メタデータ) (2022-06-30T02:35:04Z) - Low-Regret Active learning [64.36270166907788]
トレーニングに最も有用なラベル付きデータポイントを識別するオンライン学習アルゴリズムを開発した。
私たちの仕事の中心は、予測可能な(簡単な)インスタンスの低い後悔を達成するために調整された睡眠専門家のための効率的なアルゴリズムです。
論文 参考訳(メタデータ) (2021-04-06T22:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。