論文の概要: Distinguishable Deletion: Unifying Knowledge Erasure and Refusal for Large Language Model Unlearning
- arxiv url: http://arxiv.org/abs/2605.16776v1
- Date: Sat, 16 May 2026 03:15:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.017024
- Title: Distinguishable Deletion: Unifying Knowledge Erasure and Refusal for Large Language Model Unlearning
- Title(参考訳): 識別不能な削除:大規模言語モデル学習における知識消去と拒絶の統一化
- Authors: Puning Yang, Junchi Yu, Qizhou Wang, Philip Torr, Bo Han, Xiuying Chen,
- Abstract要約: Distinguishable Deletion (mathrmD2$)は、特定のトークンではなく、潜在表現の応答分布を制限するパラダイムである。
本稿では,知識の存在と未学習コンテンツと保持コンテンツとの分離を定量化するエネルギー指標を提案する。
実験の結果、EUAは以前の方法よりも大幅に優れており、$mathrmD2$の優位性を示している。
- 参考スコア(独自算出の注目度): 58.725080160369494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mitigating sensitive and harmful outputs is fundamental to ensuring safe deployment of LLMs. Existing approaches typically follow two paradigms: Knowledge Deletion (KD), which erases undesirable information during training, and Distinguishable Refusal (DR), which steers models away from using sensitive knowledge during inference. Despite rapid progress, KD-based unlearning struggles with biased deletion due to suppressing specific token sequences as a substitute for complete knowledge removal, whereas DR-based unlearning risks the re-emergence of harmful knowledge because the underlying knowledge remains intact. To address these issues, we propose Distinguishable Deletion ($\mathrm{D^2}$), a paradigm that restricts the response distribution in the latent representation rather than specific tokens to erase undesirable knowledge, while distinguishing it from retained knowledge, enabling a refusal mechanism to handle unlearned inputs safely and coherently. To implement $\mathrm{D^2}$, we introduce an energy index that quantifies the presence of knowledge and the separation between unlearned and retained content. Mathematical and empirical analyses show that energy is both accurate and efficient, enabling Energy-based Unlearning Alignment (EUA) to enforce energy-boundary unlearning during training and apply an energy-based refusal mechanism at inference. Extensive experiments demonstrate that EUA significantly outperforms previous methods, indicating the superiority of $\mathrm{D^2}$. Our code is available at https://github.com/Puning97/EUA-for-LLM-Unlearning.
- Abstract(参考訳): 機密かつ有害なアウトプットを緩和することは、LLMの安全な配置を保証するための基本となる。
既存のアプローチは、トレーニング中に望ましくない情報を消去する知識削除(KD)と、推論中に繊細な知識を使用するモデルから遠ざかる識別可能な拒絶(DR)の2つのパラダイムに従うのが一般的である。
急速な進歩にもかかわらず、KDベースの未学習は、完全な知識除去の代用として特定のトークンシーケンスを抑えるため、偏りのある削除に苦しむ一方、DRベースの未学習は、基礎となる知識がそのままであるため、有害な知識の再創出を危険にさらしている。
これらの問題に対処するために、特定のトークンではなく潜在表現の応答分布を制限するパラダイムであるDistinguishable Deletion(\mathrm{D^2}$)を提案する。
$\mathrm{D^2}$を実装するために、知識の存在と未学習コンテンツと保持コンテンツの分離を定量化するエネルギー指標を導入する。
数学的および経験的分析は、エネルギーが正確かつ効率的であることを示し、エネルギーベースの未学習調整(EUA)により、トレーニング中にエネルギー境界未学習を強制し、推論時にエネルギーベースの拒絶機構を適用することができる。
大規模な実験では、EUAは以前の方法よりも大幅に優れており、$\mathrm{D^2}$の優越性を示している。
私たちのコードはhttps://github.com/Puning97/EUA-for-LLM-Unlearningで利用可能です。
関連論文リスト
- KUDA: Knowledge Unlearning by Deviating Representation for Large Language Models [26.418820118903852]
大規模言語モデル(LLM)は、多種多様なコーパスの事前学習を通じて大量の知識を得る。
LLMのアンラーニングは、トレーニングデータにおける機密性、著作権、有害なコンテンツに関連するリスクを減らすための有望なテクニックである。
本研究では,LLMの知識レベルでの効果的な学習を実現するために,Deviating representAtion (KUDA) を用いた知識未学習を提案する。
論文 参考訳(メタデータ) (2026-02-22T17:16:49Z) - Auditing Language Model Unlearning via Information Decomposition [68.48660428111593]
部分的情報分解(PID)を用いたアンラーニング監査のための解釈可能な情報理論フレームワークを提案する。
非学習前後のモデル表現を比較することにより、相互情報と忘れられたデータとを別個の構成要素に分解し、未学習および残留知識の概念を定式化する。
我々の研究は、言語モデルのより安全なデプロイのための理論的洞察と実行可能なツールを提供する、アンラーニングのための原則付き表現レベル監査を導入している。
論文 参考訳(メタデータ) (2026-01-21T15:51:19Z) - Scalable and Robust LLM Unlearning by Correcting Responses with Retrieved Exclusions [49.55618517046225]
Webスケールのコーパスリスクを記憶し、センシティブな情報を暴露する言語モデル。
本稿では,新しいアンラーニングフレームワークであるCorrective Unlearning with Retrieved Exclusions (CURE)を提案する。
CUREは、リークのモデル出力を確認し、安全な応答に修正する。
論文 参考訳(メタデータ) (2025-09-30T09:07:45Z) - Understanding the Dilemma of Unlearning for Large Language Models [50.54260066313032]
Unlearningは、大きな言語モデル(LLM)から特定の知識を取り除こうとしている。
提案するunPactは,帰納的帰属とコントリビューショントラッキングによるアンラーニングのための解釈可能なフレームワークである。
論文 参考訳(メタデータ) (2025-09-29T12:15:19Z) - UniErase: Towards Balanced and Precise Unlearning in Language Models [69.04923022755547]
大規模言語モデル(LLM)は、古い情報問題に対処するために反復的な更新を必要とする。
UniEraseは、知識の未学習と能力保持の間の精度とバランスの取れたパフォーマンスを示す、新しいアンラーニングフレームワークである。
論文 参考訳(メタデータ) (2025-05-21T15:53:28Z) - Unlearning vs. Obfuscation: Are We Truly Removing Knowledge? [20.952703558942453]
難読化と難読化を正式に区別し,探索に基づく評価フレームワークを導入する。
自動生成された複数質問に対するモデル予測分布をフラット化する新しい未学習手法であるDF-MCQを提案する。
実験の結果,DF-MCQは90%以上の拒絶率とランダムな選択レベルの不確実性で未学習を実現することがわかった。
論文 参考訳(メタデータ) (2025-05-05T14:21:08Z) - UnUnlearning: Unlearning is not sufficient for content regulation in advanced generative AI [50.61495097098296]
大規模言語モデル(LLM)におけるアンラーニングのパラダイムを再考する。
未学習の概念を導入し、未学習の知識を文脈内で再導入する。
我々は、不寛容な知識に対するコンテンツフィルタリングが不可欠であり、正確な未学習スキームでさえ、効果的なコンテンツ規制には不十分であると主張している。
論文 参考訳(メタデータ) (2024-06-27T10:24:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。