論文の概要: UCD: Unlearning in LLMs via Contrastive Decoding
- arxiv url: http://arxiv.org/abs/2506.12097v1
- Date: Thu, 12 Jun 2025 16:02:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:45.104802
- Title: UCD: Unlearning in LLMs via Contrastive Decoding
- Title(参考訳): UCD: コントラストデコーディングによるLLMのアンラーニング
- Authors: Vinith M. Suriyakumar, Ayush Sekhari, Ashia Wilson,
- Abstract要約: コントラストデコーディングを用いた推論時アンラーニングアルゴリズムを提案する。
我々は、TOFUとMUSEの2つのアンラーニングベンチマークに対するアプローチを評価した。
- 参考スコア(独自算出の注目度): 10.901118996654171
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine unlearning aims to remove specific information, e.g. sensitive or undesirable content, from large language models (LLMs) while preserving overall performance. We propose an inference-time unlearning algorithm that uses contrastive decoding, leveraging two auxiliary smaller models, one trained without the forget set and one trained with it, to guide the outputs of the original model using their difference during inference. Our strategy substantially improves the tradeoff between unlearning effectiveness and model utility. We evaluate our approach on two unlearning benchmarks, TOFU and MUSE. Results show notable gains in both forget quality and retained performance in comparison to prior approaches, suggesting that incorporating contrastive decoding can offer an efficient, practical avenue for unlearning concepts in large-scale models.
- Abstract(参考訳): 機械学習の目的は、例えば機密性や望ましくないコンテンツといった特定の情報を、全体的なパフォーマンスを維持しながら、大きな言語モデル(LLM)から削除することにある。
本稿では,2つの補助的モデルと,それを用いて訓練したモデルを用いて,差分を用いた元のモデルの出力を導出する,コントラッシブデコーディングを用いた推論時アンラーニングアルゴリズムを提案する。
我々の戦略は、未学習の有効性とモデルユーティリティのトレードオフを大幅に改善します。
我々は、TOFUとMUSEの2つのアンラーニングベンチマークに対するアプローチを評価した。
その結果, 従来の手法と比較して, 品質と性能の保持が顕著に向上し, 対照的な復号化が, 大規模モデルにおける非学習的概念の効率的かつ実践的な道筋となることが示唆された。
関連論文リスト
- WSS-CL: Weight Saliency Soft-Guided Contrastive Learning for Efficient Machine Unlearning Image Classification [0.0]
本稿では,画像分類のための2相効率的な機械学習手法を提案する。
我々の手法は、効率的な機械学習画像分類(WSS-CL)のためのウェイトサリエンシソフトガイド型コントラスト学習と呼ばれる。
提案手法は, 最先端手法と比較して, 性能損失を無視できるほど改善されていない未学習の有効性を示す。
論文 参考訳(メタデータ) (2025-08-06T10:47:36Z) - Efficient Machine Unlearning via Influence Approximation [75.31015485113993]
インフルエンサーベースのアンラーニングは、個別のトレーニングサンプルがモデルパラメータに与える影響を再トレーニングせずに推定する顕著なアプローチとして現れてきた。
本稿では,暗記(増分学習)と忘れ(未学習)の理論的関連性を確立する。
本稿では、インフルエンス近似アンラーニングアルゴリズムを導入し、インクリメンタルな視点から効率的なマシンアンラーニングを行う。
論文 参考訳(メタデータ) (2025-07-31T05:34:27Z) - EpiCoDe: Boosting Model Performance Beyond Training with Extrapolation and Contrastive Decoding [50.29046178980637]
EpiCoDeは、余分なトレーニングなしでデータスカシティシナリオにおけるモデルパフォーマンスを向上させる方法である。
EpiCoDeは、既存のメソッドよりも大幅に、堅牢に改善されていることを示す。
論文 参考訳(メタデータ) (2025-06-04T02:11:54Z) - SAUCE: Selective Concept Unlearning in Vision-Language Models with Sparse Autoencoders [16.551943721248108]
本稿では,視覚言語モデルにおいて,より微細で選択的な概念学習のための新しい手法であるSAUCEを紹介する。
まずSAEを訓練し、高次元、意味的に豊かなスパースの特徴を捉えます。
次に、未学習のターゲット概念に最も関連する機能を特定する。
推論中は、これらの特徴を選択的に修正し、関係のない情報を保存しながら特定の概念を抑圧する。
論文 参考訳(メタデータ) (2025-03-16T17:32:23Z) - Unlearning as multi-task optimization: A normalized gradient difference approach with an adaptive learning rate [105.86576388991713]
正規化勾配差(NGDiff)アルゴリズムを導入し、目的間のトレードオフをよりよく制御できるようにする。
本研究では,TOFUおよびMUSEデータセットにおける最先端の未学習手法において,NGDiffの優れた性能を実証的に実証し,理論的解析を行った。
論文 参考訳(メタデータ) (2024-10-29T14:41:44Z) - LLMs-as-Instructors: Learning from Errors Toward Automating Model Improvement [93.38736019287224]
LLMs-as-Instructors"フレームワークは、より小さなターゲットモデルのトレーニングを自律的に強化する。
このフレームワークは、"Learning from Errors"理論にインスパイアされ、ターゲットモデル内の特定のエラーを注意深く分析するインストラクターLLMを使用している。
本フレームワークでは,適切なトレーニングデータに対する誤応答のみに焦点を当てた「エラーからの学習」と,比較学習を用いて誤りの深い理解を行う「コントラストによるエラーからの学習」という2つの戦略を実装している。
論文 参考訳(メタデータ) (2024-06-29T17:16:04Z) - Unlearn What You Want to Forget: Efficient Unlearning for LLMs [92.51670143929056]
大規模言語モデル(LLM)は、幅広いテキストデータを事前学習し記憶することで大きな進歩を遂げた。
このプロセスはプライバシー問題やデータ保護規則違反に悩まされる可能性がある。
データ削除後のモデル全体を再トレーニングすることなく、LLMを効率的に更新できる効率的なアンラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:35:59Z) - Model Sparsity Can Simplify Machine Unlearning [33.18951938708467]
最近のデータ規制要件に応えて、マシン・アンラーニング(MU)が重要なプロセスとして登場した。
本研究は,ウェイトプルーニングによるモデルスペーシフィケーションという,新しいモデルベース視点を紹介する。
理論と実践の両方において、モデルスパーシティは、近似アンラーナーのマルチ基準アンラーニング性能を高めることができることを示す。
論文 参考訳(メタデータ) (2023-04-11T02:12:02Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。