論文の概要: Unlearning vs. Obfuscation: Are We Truly Removing Knowledge?
- arxiv url: http://arxiv.org/abs/2505.02884v1
- Date: Mon, 05 May 2025 14:21:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.06351
- Title: Unlearning vs. Obfuscation: Are We Truly Removing Knowledge?
- Title(参考訳): Unlearning vs. Obfuscation: 知識を完全に取り除くか?
- Authors: Guangzhi Sun, Potsawee Manakul, Xiao Zhan, Mark Gales,
- Abstract要約: 難読化と難読化を正式に区別し,探索に基づく評価フレームワークを導入する。
自動生成された複数質問に対するモデル予測分布をフラット化する新しい未学習手法であるDF-MCQを提案する。
実験の結果,DF-MCQは90%以上の拒絶率とランダムな選択レベルの不確実性で未学習を実現することがわかった。
- 参考スコア(独自算出の注目度): 15.964825460186393
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unlearning has emerged as a critical capability for large language models (LLMs) to support data privacy, regulatory compliance, and ethical AI deployment. Recent techniques often rely on obfuscation by injecting incorrect or irrelevant information to suppress knowledge. Such methods effectively constitute knowledge addition rather than true removal, often leaving models vulnerable to probing. In this paper, we formally distinguish unlearning from obfuscation and introduce a probing-based evaluation framework to assess whether existing approaches genuinely remove targeted information. Moreover, we propose DF-MCQ, a novel unlearning method that flattens the model predictive distribution over automatically generated multiple-choice questions using KL-divergence, effectively removing knowledge about target individuals and triggering appropriate refusal behaviour. Experimental results demonstrate that DF-MCQ achieves unlearning with over 90% refusal rate and a random choice-level uncertainty that is much higher than obfuscation on probing questions.
- Abstract(参考訳): Unlearningは、データプライバシ、規制コンプライアンス、倫理的AIデプロイメントをサポートするために、大規模言語モデル(LLM)にとって重要な機能として登場した。
近年の手法は、知識を抑えるために誤った情報や無関係な情報を注入することで難読化に依存していることが多い。
このような手法は、真の除去よりも知識の追加を効果的に構成し、しばしば探索に弱いモデルを残している。
本稿では,未学習と難読化を正式に区別し,既存のアプローチが真に対象情報を除去するかどうかを評価するための探索に基づく評価フレームワークを提案する。
DF-MCQは,KL分割を用いて自動生成された複数の質問に対するモデル予測分布をフラット化し,対象個人に関する知識を効果的に除去し,適切な拒絶行動を引き起こす新しい学習手法である。
実験の結果,DF-MCQは90%以上の拒絶率とランダムな選択レベルの不確実性を有する未学習を達成できることが示された。
関連論文リスト
- Prompt Attacks Reveal Superficial Knowledge Removal in Unlearning Methods [0.9999629695552196]
素早い攻撃を受けると、いくつかの機械学習手法が失敗する可能性があることを示す。
アウトプットベース、ロジットベース、プローブ分析を用いて、未学習の知識がどの程度検索できるかを判断する。
論文 参考訳(メタデータ) (2025-06-11T23:36:30Z) - LLM Unlearning Should Be Form-Independent [14.222205207889543]
大言語モデル(LLM)は、モデル内の望ましくない知識を消去または抑制することを目的としている。
既存のアンラーニング手法の有効性は、トレーニングサンプルの形式に大きく依存する。
そこで我々は,新しいトレーニングフリー手法であるRanc-one Concept Redirection (ROCR) を有望なソリューションパスとして紹介する。
論文 参考訳(メタデータ) (2025-06-09T14:21:25Z) - Extracting Unlearned Information from LLMs with Activation Steering [46.16882599881247]
トレーニング後のモデルからセンシティブな知識を取り除くソリューションとして、アンラーニングが登場した。
本研究では,未学習モデルからの正確な情報検索手法として,アクティベーションステアリングを提案する。
その結果,未学習モデルからの正確な情報検索が可能であることが示され,現在の未学習手法の深刻な脆弱性が浮き彫りにされている。
論文 参考訳(メタデータ) (2024-11-04T21:42:56Z) - Breaking Chains: Unraveling the Links in Multi-Hop Knowledge Unlearning [38.03304773600225]
大きな言語モデル(LLM)は、しばしば個人または著作権のあるデータを含む巨大な情報ストアとして機能し、それらをゼロから再トレーニングすることは不可能である。
MUNCHは、マルチホップクエリをサブクエストに分解し、最終的な意思決定における未学習モデルの不確実性を活用する、単純な不確実性に基づくアプローチである。
論文 参考訳(メタデータ) (2024-10-17T07:00:15Z) - A Closer Look at Machine Unlearning for Large Language Models [46.245404272612795]
大型言語モデル(LLM)は機密または著作権のあるコンテンツを記憶し、プライバシーと法的懸念を高める。
LLMの機械学習におけるいくつかの問題について議論し、可能なアプローチについての洞察を提供する。
論文 参考訳(メタデータ) (2024-10-10T16:56:05Z) - From Theft to Bomb-Making: The Ripple Effect of Unlearning in Defending Against Jailbreak Attacks [85.84979847888157]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に弱いことが知られている。
LLMは、学習期間中に明示的に導入されなかった有害な知識を暗黙的に引き起こすことができる。
我々は、この現象を実証的に検証し、未学習の手法でアタック成功率を下げることを可能にする。
論文 参考訳(メタデータ) (2024-07-03T07:14:05Z) - UnUnlearning: Unlearning is not sufficient for content regulation in advanced generative AI [50.61495097098296]
大規模言語モデル(LLM)におけるアンラーニングのパラダイムを再考する。
未学習の概念を導入し、未学習の知識を文脈内で再導入する。
我々は、不寛容な知識に対するコンテンツフィルタリングが不可欠であり、正確な未学習スキームでさえ、効果的なコンテンツ規制には不十分であると主張している。
論文 参考訳(メタデータ) (2024-06-27T10:24:35Z) - R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。
事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。
我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-16T08:45:44Z) - XAL: EXplainable Active Learning Makes Classifiers Better Low-resource Learners [71.8257151788923]
低リソーステキスト分類のための新しい説明可能なアクティブラーニングフレームワーク(XAL)を提案する。
XALは分類器に対して、推論を正当化し、合理的な説明ができないラベルのないデータを掘り下げることを推奨している。
6つのデータセットの実験では、XALは9つの強いベースラインに対して一貫した改善を達成している。
論文 参考訳(メタデータ) (2023-10-09T08:07:04Z) - Improving the Reliability of Large Language Models by Leveraging
Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している
本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T12:06:53Z) - Evaluating Machine Unlearning via Epistemic Uncertainty [78.27542864367821]
本研究では,不確実性に基づく機械学習アルゴリズムの評価を行う。
これは私たちの最良の知識の一般的な評価の最初の定義です。
論文 参考訳(メタデータ) (2022-08-23T09:37:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。