論文の概要: Unlearning vs. Obfuscation: Are We Truly Removing Knowledge?
- arxiv url: http://arxiv.org/abs/2505.02884v1
- Date: Mon, 05 May 2025 14:21:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.06351
- Title: Unlearning vs. Obfuscation: Are We Truly Removing Knowledge?
- Title(参考訳): Unlearning vs. Obfuscation: 知識を完全に取り除くか?
- Authors: Guangzhi Sun, Potsawee Manakul, Xiao Zhan, Mark Gales,
- Abstract要約: 難読化と難読化を正式に区別し,探索に基づく評価フレームワークを導入する。
自動生成された複数質問に対するモデル予測分布をフラット化する新しい未学習手法であるDF-MCQを提案する。
実験の結果,DF-MCQは90%以上の拒絶率とランダムな選択レベルの不確実性で未学習を実現することがわかった。
- 参考スコア(独自算出の注目度): 15.964825460186393
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unlearning has emerged as a critical capability for large language models (LLMs) to support data privacy, regulatory compliance, and ethical AI deployment. Recent techniques often rely on obfuscation by injecting incorrect or irrelevant information to suppress knowledge. Such methods effectively constitute knowledge addition rather than true removal, often leaving models vulnerable to probing. In this paper, we formally distinguish unlearning from obfuscation and introduce a probing-based evaluation framework to assess whether existing approaches genuinely remove targeted information. Moreover, we propose DF-MCQ, a novel unlearning method that flattens the model predictive distribution over automatically generated multiple-choice questions using KL-divergence, effectively removing knowledge about target individuals and triggering appropriate refusal behaviour. Experimental results demonstrate that DF-MCQ achieves unlearning with over 90% refusal rate and a random choice-level uncertainty that is much higher than obfuscation on probing questions.
- Abstract(参考訳): Unlearningは、データプライバシ、規制コンプライアンス、倫理的AIデプロイメントをサポートするために、大規模言語モデル(LLM)にとって重要な機能として登場した。
近年の手法は、知識を抑えるために誤った情報や無関係な情報を注入することで難読化に依存していることが多い。
このような手法は、真の除去よりも知識の追加を効果的に構成し、しばしば探索に弱いモデルを残している。
本稿では,未学習と難読化を正式に区別し,既存のアプローチが真に対象情報を除去するかどうかを評価するための探索に基づく評価フレームワークを提案する。
DF-MCQは,KL分割を用いて自動生成された複数の質問に対するモデル予測分布をフラット化し,対象個人に関する知識を効果的に除去し,適切な拒絶行動を引き起こす新しい学習手法である。
実験の結果,DF-MCQは90%以上の拒絶率とランダムな選択レベルの不確実性を有する未学習を達成できることが示された。
関連論文リスト
- Breaking Chains: Unraveling the Links in Multi-Hop Knowledge Unlearning [38.03304773600225]
大きな言語モデル(LLM)は、しばしば個人または著作権のあるデータを含む巨大な情報ストアとして機能し、それらをゼロから再トレーニングすることは不可能である。
MUNCHは、マルチホップクエリをサブクエストに分解し、最終的な意思決定における未学習モデルの不確実性を活用する、単純な不確実性に基づくアプローチである。
論文 参考訳(メタデータ) (2024-10-17T07:00:15Z) - A Closer Look at Machine Unlearning for Large Language Models [46.245404272612795]
大型言語モデル(LLM)は機密または著作権のあるコンテンツを記憶し、プライバシーと法的懸念を高める。
LLMの機械学習におけるいくつかの問題について議論し、可能なアプローチについての洞察を提供する。
論文 参考訳(メタデータ) (2024-10-10T16:56:05Z) - R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。
事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。
我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-16T08:45:44Z) - XAL: EXplainable Active Learning Makes Classifiers Better Low-resource Learners [71.8257151788923]
低リソーステキスト分類のための新しい説明可能なアクティブラーニングフレームワーク(XAL)を提案する。
XALは分類器に対して、推論を正当化し、合理的な説明ができないラベルのないデータを掘り下げることを推奨している。
6つのデータセットの実験では、XALは9つの強いベースラインに対して一貫した改善を達成している。
論文 参考訳(メタデータ) (2023-10-09T08:07:04Z) - Evaluating Machine Unlearning via Epistemic Uncertainty [78.27542864367821]
本研究では,不確実性に基づく機械学習アルゴリズムの評価を行う。
これは私たちの最良の知識の一般的な評価の最初の定義です。
論文 参考訳(メタデータ) (2022-08-23T09:37:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。