論文の概要: CATNIP: LLM Unlearning via Calibrated and Tokenized Negative Preference Alignment
- arxiv url: http://arxiv.org/abs/2602.02824v1
- Date: Mon, 02 Feb 2026 21:23:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.094791
- Title: CATNIP: LLM Unlearning via Calibrated and Tokenized Negative Preference Alignment
- Title(参考訳): CATNIP: 校正とトークン化によるLLMアンラーニング
- Authors: Zhengbang Yang, Yisheng Zhong, Junyuan Hong, Zhuangdi Zhu,
- Abstract要約: 既存のアプローチは、グラディエント・アセント(GA)をルーツとしており、保持データやコントラッシブなペアに頼りながら、一般的なドメイン知識を劣化させることが多い。
我々は,モデルのトークンレベルの信頼度に比例して,未学習効果を再スケールする原理的手法を開発した。
我々の研究は、保持データや対照的なアンラーニング応答ペアを必要とせず、効果的なアンラーニングを可能にする。
- 参考スコア(独自算出の注目度): 14.853204323785334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pretrained knowledge memorized in LLMs raises critical concerns over safety and privacy, which has motivated LLM Unlearning as a technique for selectively removing the influences of undesirable knowledge. Existing approaches, rooted in Gradient Ascent (GA), often degrade general domain knowledge while relying on retention data or curated contrastive pairs, which can be either impractical or data and computationally prohibitive. Negative Preference Alignment has been explored for unlearning to tackle the limitations of GA, which, however, remains confined by its choice of reference model and shows undermined performance in realistic data settings. These limitations raise two key questions: i) Can we achieve effective unlearning that quantifies model confidence in undesirable knowledge and uses it to calibrate gradient updates more precisely, thus reducing catastrophic forgetting? ii) Can we make unlearning robust to data scarcity and length variation? We answer both questions affirmatively with CATNIP (Calibrated and Tokenized Negative Preference Alignment), a principled method that rescales unlearning effects in proportion to the model's token-level confidence, thus ensuring fine-grained control over forgetting. Extensive evaluations on MUSE and WMDP benchmarks demonstrated that our work enables effective unlearning without requiring retention data or contrastive unlearning response pairs, with stronger knowledge forgetting and preservation tradeoffs than state-of-the-art methods.
- Abstract(参考訳): LLMに記憶されている事前訓練された知識は、安全とプライバシに関する重要な懸念を提起し、望ましくない知識の影響を選択的に除去する技術としてLLM Unlearningを動機付けている。
既存のアプローチは、グラディエント・アセント(GA)をルーツとしており、保持データや、非現実的またはデータ、計算的に禁止されるコントラストペアに依存しながら、一般的なドメイン知識を劣化させることが多い。
負の選好アライメントは、GAの制限に対処するために未学習で検討されてきたが、参照モデルの選択によって制限され、現実的なデータ設定では性能が損なわれている。
これらの制限は2つの重要な疑問を引き起こします。
一 好ましくない知識のモデル信頼度を定量化し、より正確に勾配更新を校正し、破滅的な忘れを減らせる効果的なアンラーニングを実現できるか。
二 データの不足や長さの変動に対して、未学習を堅牢にすることができるか。
CATNIP(Calibrated and Tokenized Negative Preference Alignment)は,モデルのトークンレベルの信頼度に比例して学習効果を再スケールする原理的手法である。
MUSE と WMDP のベンチマークを総合的に評価した結果,従来の手法よりも知識の忘れと保存のトレードオフが強く,保持データや対照的なアンラーニング応答ペアを必要とせず,効果的なアンラーニングを可能にすることが実証された。
関連論文リスト
- Rendering Data Unlearnable by Exploiting LLM Alignment Mechanisms [3.648393062009244]
大規模言語モデル(LLM)は、大規模で異質なテキストコーパスでますます訓練されている。
これは、モデルトレーニング中にプロプライエタリまたは個人データの使用が許可されていないという深刻な懸念を引き起こす。
本研究では, LLM に読み書き不能なテキストを描画する新しいデータレベルディフェンスである Disclaimer Injection を提案する。
論文 参考訳(メタデータ) (2026-01-06T20:34:15Z) - Forgetting-MarI: LLM Unlearning via Marginal Information Regularization [6.979586479353831]
既存の未学習のメソッドは、特定のデータを“忘れる”場合に必要以上の情報を取り除くことで、モデルのパフォーマンスを劣化させることが多い。
我々は,LLMアンラーニングフレームワークであるForgetting-MarIを紹介した。
限界情報をペナル化することにより、トレーニングされたモデルにおける未学習データセットの残差の影響を明示的に上限付けし、証明不能な検出を可能にする。
論文 参考訳(メタデータ) (2025-11-14T22:48:39Z) - GUARD: Guided Unlearning and Retention via Data Attribution for Large Language Models [17.83305806604326]
GUARDは、データ属性を通じて学習と保持をガイドするフレームワークである。
適応的で一様でないアンラーニングウェイトをサンプルに割り当て、逆にプロキシ属性スコアに比例する。
我々はGUARDが従来の手法に匹敵するメトリクスを忘れずに保持を大幅に改善する厳密な理論的保証を提供する。
論文 参考訳(メタデータ) (2025-06-12T17:49:09Z) - UniErase: Towards Balanced and Precise Unlearning in Language Models [69.04923022755547]
大規模言語モデル(LLM)は、古い情報問題に対処するために反復的な更新を必要とする。
UniEraseは、知識の未学習と能力保持の間の精度とバランスの取れたパフォーマンスを示す、新しいアンラーニングフレームワークである。
論文 参考訳(メタデータ) (2025-05-21T15:53:28Z) - Towards Robust and Parameter-Efficient Knowledge Unlearning for LLMs [25.91643745340183]
大規模言語モデル(LLM)は、大量のテキストコーパスの事前学習を通じて、強い推論と記憶能力を示す。
これはプライバシーと著作権侵害のリスクを生じさせ、効率的な機械学習手法の必要性を強調している。
LLMの堅牢かつ効率的なアンラーニングを可能にする新しいフレームワークであるLoKUを提案する。
論文 参考訳(メタデータ) (2024-08-13T04:18:32Z) - Learn while Unlearn: An Iterative Unlearning Framework for Generative Language Models [52.40798352740857]
3つのコアコンポーネントで構成されるICU(Iterative Contrastive Unlearning)フレームワークを紹介する。
知識未学習誘導モジュールは、未学習の損失を使用して、特定の知識を除去するためにターゲットとする。
Contrastive Learning Enhancementモジュールは、純粋な未学習の目標に対してモデルの表現力を保持する。
イテレーティブ・アンラーニング・リファインメントモジュールは、進行中の評価と更新を通じて、アンラーニングプロセスを動的に調整する。
論文 参考訳(メタデータ) (2024-07-25T07:09:35Z) - Mind the Interference: Retaining Pre-trained Knowledge in Parameter Efficient Continual Learning of Vision-Language Models [79.28821338925947]
ドメインクラスのインクリメンタル学習は現実的だが、継続的な学習シナリオである。
これらの多様なタスクに対処するために、事前訓練されたビジョンランゲージモデル(VLM)を導入し、その強力な一般化性を実現する。
事前訓練されたVLMにエンコードされた知識は、新しいタスクに適応する際に妨げられ、固有のゼロショット能力を損なう。
既存の手法では、膨大なオーバーヘッドを必要とする余分なデータセットに知識蒸留でVLMをチューニングすることで、この問題に対処している。
我々は、事前学習した知識を保持できるDIKI(Distributed-Aware Interference-free Knowledge Integration)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-07T12:19:37Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。