論文の概要: DUET: Distilled LLM Unlearning from an Efficiently Contextualized Teacher
- arxiv url: http://arxiv.org/abs/2601.21283v1
- Date: Thu, 29 Jan 2026 05:32:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.595051
- Title: DUET: Distilled LLM Unlearning from an Efficiently Contextualized Teacher
- Title(参考訳): DUET:効率の良い文脈教師によるLLM未学習
- Authors: Yisheng Zhong, Zhengbang Yang, Zhuangdi Zhu,
- Abstract要約: デュエット(DUET)は,蒸留法に基づく新規な未学習法である。
忘れることとユーティリティ保存の両方において高いパフォーマンスを実現し、最先端の未学習手法よりも桁違いにデータ効率が高い。
- 参考スコア(独自算出の注目度): 5.406594712642111
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM unlearning is a technique to remove the impacts of undesirable knowledge from the model without retraining from scratch, which is indispensable towards trustworthy AI. Existing unlearning methods face significant limitations: conventional tuning-based unlearning is computationally heavy and prone to catastrophic forgetting. In contrast, in-contextualized unlearning is lightweight for precise unlearning but vulnerable to prompt removal or reverse engineering attacks. In response, we propose Distilled Unlearning from an Efficient Teacher (DUET), a novel distillation-based unlearning method that combines the merits of these two lines of work. It learns a student model to imitate the behavior of a prompt-steered teacher that effectively refuses undesirable knowledge generation while preserving general domain knowledge. Extensive evaluations on existing benchmarks with our enriched evaluation protocols demonstrate that DUET achieves higher performance in both forgetting and utility preservation, while being orders of magnitude more data-efficient than state-of-the-art unlearning methods.
- Abstract(参考訳): LLMアンラーニング(英: LLM unlearning)は、信頼に値するAIにとって不可欠である、スクラッチからトレーニングすることなく、モデルから望ましくない知識の影響を取り除くテクニックである。
従来のチューニングベースのアンラーニングは計算的に重く、破滅的な忘れがちである。
対照的に、文脈内でのアンラーニングは、正確なアンラーニングには軽量だが、除去やリバースエンジニアリング攻撃に対して脆弱である。
そこで本研究では,この2つの研究のメリットを組み合わせた,蒸留法に基づく新しい未学習手法であるDigitaled Unlearning from a Efficient Teacher (DUET)を提案する。
一般知識を保ちながら、望ましくない知識生成を効果的に拒否する急進的な教師の振る舞いを模倣する学生モデルを学ぶ。
既存のベンチマークを拡張評価プロトコルで広範囲に評価したところ、DUETは、最先端の未学習手法よりも桁違いにデータ効率が高く、忘れることとユーティリティ保存の両面で高い性能を実現していることがわかった。
関連論文リスト
- Unlearning That Lasts: Utility-Preserving, Robust, and Almost Irreversible Forgetting in LLMs [31.768387661474904]
大規模言語モデル(LLM)におけるアンラーニングでは、事前訓練されたモデルから特定の情報を正確に除去する。
これは、事前訓練中に取得した個人データや有害な知識を削除することで、LLMの安全性を確保するために重要である。
JensUnを導入し、Jensen-Shannon Divergenceをセットを忘れたり、保持したりするためのトレーニングの目的として活用する。
大規模な実験では、JensUnは競合するメソッドよりも忘れやすいトレードオフを実現し、再学習に強いレジリエンスを示しています。
論文 参考訳(メタデータ) (2025-09-02T20:38:53Z) - Efficient Machine Unlearning via Influence Approximation [75.31015485113993]
インフルエンサーベースのアンラーニングは、個別のトレーニングサンプルがモデルパラメータに与える影響を再トレーニングせずに推定する顕著なアプローチとして現れてきた。
本稿では,暗記(増分学習)と忘れ(未学習)の理論的関連性を確立する。
本稿では、インフルエンス近似アンラーニングアルゴリズムを導入し、インクリメンタルな視点から効率的なマシンアンラーニングを行う。
論文 参考訳(メタデータ) (2025-07-31T05:34:27Z) - Distillation Robustifies Unlearning [36.27570321651185]
モデルのトレーニングは、基礎となる機能をそのまま残しながら、インプット・アウトプットの動作を大幅に変更できることを示す。
本研究では,未学習のモデルを自身のノイズコピーに蒸留するスケーラブルな手法であるUnlearn-Noise-Distill-on-Outputs (UNDO)を提案する。
論文 参考訳(メタデータ) (2025-06-06T17:58:54Z) - Towards Robust Knowledge Unlearning: An Adversarial Framework for Assessing and Improving Unlearning Robustness in Large Language Models [19.015202590038996]
我々は、未学習モデルを攻撃する動的かつ自動化されたフレームワークであるDynamic Unlearning Attack (DUA)を設計する。
学習過程の堅牢性を効果的に向上する普遍的な枠組みであるLatent Adrial Unlearning (LAU)を提案する。
LAUは学習効率を53.5%以上改善し、近隣の知識の11.6%以下に減らし、モデルの一般的な能力にはほとんど影響を与えないことを示した。
論文 参考訳(メタデータ) (2024-08-20T09:36:04Z) - Learn while Unlearn: An Iterative Unlearning Framework for Generative Language Models [52.40798352740857]
3つのコアコンポーネントで構成されるICU(Iterative Contrastive Unlearning)フレームワークを紹介する。
知識未学習誘導モジュールは、未学習の損失を使用して、特定の知識を除去するためにターゲットとする。
Contrastive Learning Enhancementモジュールは、純粋な未学習の目標に対してモデルの表現力を保持する。
イテレーティブ・アンラーニング・リファインメントモジュールは、進行中の評価と更新を通じて、アンラーニングプロセスを動的に調整する。
論文 参考訳(メタデータ) (2024-07-25T07:09:35Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Efficient Knowledge Deletion from Trained Models through Layer-wise
Partial Machine Unlearning [2.3496568239538083]
本稿では,機械学習アルゴリズムの新たなクラスを紹介する。
第1の方法は、アンネシアック・アンラーニングであり、アンネシアック・アンラーニングとレイヤーワイズ・プルーニングの統合である。
第2の方法は、階層的な部分更新をラベルフリップと最適化に基づくアンラーニングに同化する。
論文 参考訳(メタデータ) (2024-03-12T12:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。