論文の概要: UCD: Unlearning in LLMs via Contrastive Decoding
- arxiv url: http://arxiv.org/abs/2506.12097v1
- Date: Thu, 12 Jun 2025 16:02:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:45.104802
- Title: UCD: Unlearning in LLMs via Contrastive Decoding
- Title(参考訳): UCD: コントラストデコーディングによるLLMのアンラーニング
- Authors: Vinith M. Suriyakumar, Ayush Sekhari, Ashia Wilson,
- Abstract要約: コントラストデコーディングを用いた推論時アンラーニングアルゴリズムを提案する。
我々は、TOFUとMUSEの2つのアンラーニングベンチマークに対するアプローチを評価した。
- 参考スコア(独自算出の注目度): 10.901118996654171
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine unlearning aims to remove specific information, e.g. sensitive or undesirable content, from large language models (LLMs) while preserving overall performance. We propose an inference-time unlearning algorithm that uses contrastive decoding, leveraging two auxiliary smaller models, one trained without the forget set and one trained with it, to guide the outputs of the original model using their difference during inference. Our strategy substantially improves the tradeoff between unlearning effectiveness and model utility. We evaluate our approach on two unlearning benchmarks, TOFU and MUSE. Results show notable gains in both forget quality and retained performance in comparison to prior approaches, suggesting that incorporating contrastive decoding can offer an efficient, practical avenue for unlearning concepts in large-scale models.
- Abstract(参考訳): 機械学習の目的は、例えば機密性や望ましくないコンテンツといった特定の情報を、全体的なパフォーマンスを維持しながら、大きな言語モデル(LLM)から削除することにある。
本稿では,2つの補助的モデルと,それを用いて訓練したモデルを用いて,差分を用いた元のモデルの出力を導出する,コントラッシブデコーディングを用いた推論時アンラーニングアルゴリズムを提案する。
我々の戦略は、未学習の有効性とモデルユーティリティのトレードオフを大幅に改善します。
我々は、TOFUとMUSEの2つのアンラーニングベンチマークに対するアプローチを評価した。
その結果, 従来の手法と比較して, 品質と性能の保持が顕著に向上し, 対照的な復号化が, 大規模モデルにおける非学習的概念の効率的かつ実践的な道筋となることが示唆された。
関連論文リスト
- EpiCoDe: Boosting Model Performance Beyond Training with Extrapolation and Contrastive Decoding [50.29046178980637]
EpiCoDeは、余分なトレーニングなしでデータスカシティシナリオにおけるモデルパフォーマンスを向上させる方法である。
EpiCoDeは、既存のメソッドよりも大幅に、堅牢に改善されていることを示す。
論文 参考訳(メタデータ) (2025-06-04T02:11:54Z) - Unlearning as multi-task optimization: A normalized gradient difference approach with an adaptive learning rate [105.86576388991713]
正規化勾配差(NGDiff)アルゴリズムを導入し、目的間のトレードオフをよりよく制御できるようにする。
本研究では,TOFUおよびMUSEデータセットにおける最先端の未学習手法において,NGDiffの優れた性能を実証的に実証し,理論的解析を行った。
論文 参考訳(メタデータ) (2024-10-29T14:41:44Z) - LLMs-as-Instructors: Learning from Errors Toward Automating Model Improvement [93.38736019287224]
LLMs-as-Instructors"フレームワークは、より小さなターゲットモデルのトレーニングを自律的に強化する。
このフレームワークは、"Learning from Errors"理論にインスパイアされ、ターゲットモデル内の特定のエラーを注意深く分析するインストラクターLLMを使用している。
本フレームワークでは,適切なトレーニングデータに対する誤応答のみに焦点を当てた「エラーからの学習」と,比較学習を用いて誤りの深い理解を行う「コントラストによるエラーからの学習」という2つの戦略を実装している。
論文 参考訳(メタデータ) (2024-06-29T17:16:04Z) - Unlearn What You Want to Forget: Efficient Unlearning for LLMs [92.51670143929056]
大規模言語モデル(LLM)は、幅広いテキストデータを事前学習し記憶することで大きな進歩を遂げた。
このプロセスはプライバシー問題やデータ保護規則違反に悩まされる可能性がある。
データ削除後のモデル全体を再トレーニングすることなく、LLMを効率的に更新できる効率的なアンラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:35:59Z) - Model Sparsity Can Simplify Machine Unlearning [33.18951938708467]
最近のデータ規制要件に応えて、マシン・アンラーニング(MU)が重要なプロセスとして登場した。
本研究は,ウェイトプルーニングによるモデルスペーシフィケーションという,新しいモデルベース視点を紹介する。
理論と実践の両方において、モデルスパーシティは、近似アンラーナーのマルチ基準アンラーニング性能を高めることができることを示す。
論文 参考訳(メタデータ) (2023-04-11T02:12:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。