論文の概要: ZeroUnlearn: Few-Shot Knowledge Unlearning in Large Language Models
- arxiv url: http://arxiv.org/abs/2605.18879v2
- Date: Wed, 20 May 2026 08:28:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 14:55:44.330981
- Title: ZeroUnlearn: Few-Shot Knowledge Unlearning in Large Language Models
- Title(参考訳): ZeroUnlearn: 大規模言語モデルで学ぶことのほとんどない知識
- Authors: Yujie Lin, Chengyi Yang, Zhishang Xiang, Yiping Song, Jinsong Su,
- Abstract要約: 大規模な言語モデルは、有害な世代を引き起こす可能性のある入力として定義された機密情報を必然的に保持する。
既存の機械学習手法は、リトレーニングやアグレッシブな微調整に頼っている。
我々は、センシティブな入力を中立なターゲット状態にマッピングすることで上書きする、数発のアンラーニングフレームワークZeroUnlearnを提案する。
- 参考スコア(独自算出の注目度): 36.71886205422977
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models inevitably retain sensitive information, defined as inputs that may induce harmful generations, due to training on massive web corpora, raising concerns for privacy and safety. Existing machine unlearning methods primarily rely on retraining or aggressive fine-tuning, which are either computationally expensive or prone to degrading related knowledge and overall model utility. In this work, we reformulate machine unlearning as a precise knowledge re-mapping problem via model editing. We propose ZeroUnlearn, a few-shot unlearning framework. It overwrites sensitive inputs by mapping them to a neutral target state and removing their original representations. ZeroUnlearn enforces representational orthogonality through a multiplicative parameter update with a closed-form solution, enabling efficient and targeted unlearning. We further extend ZeroUnlearn to a gradient-based variant for multi-sample unlearning. Experiments demonstrate that our approach outperforms existing baselines while preserving general model utility. Our code is available at the github: https://github.com/XMUDeepLIT/ZeroUnlearn.
- Abstract(参考訳): 大規模な言語モデルは、大規模なWebコーパスのトレーニングによって有害な世代を誘導する可能性のある入力として定義された機密情報を必然的に保持し、プライバシと安全性に対する懸念を高める。
既存の機械学習手法は、主にリトレーニングやアグレッシブな微調整に頼っているが、これは計算的に高価か、関連する知識と全体的なモデルユーティリティを劣化させる傾向がある。
本研究では,機械学習をモデル編集による正確な知識再構成問題として再構成する。
数発のアンラーニングフレームワークであるZeroUnlearnを提案する。
センシティブな入力を中立なターゲット状態にマッピングし、元の表現を削除することで上書きする。
ZeroUnlearnは、クローズドフォームソリューションによる乗算パラメータ更新を通じて表現直交を強制し、効率的でターゲットの未学習を可能にする。
我々はさらにZeroUnlearnをマルチサンプルアンラーニングのための勾配ベースの変種に拡張する。
実験により,本手法は汎用モデルユーティリティを保ちながら,既存のベースラインよりも優れていることが示された。
私たちのコードはgithub.com/XMUDeepLIT/ZeroUnlearn.comで利用可能です。
関連論文リスト
- Model Collapse Is Not a Bug but a Feature in Machine Unlearning for LLMs [54.167494079321465]
LLMの現在のアンラーニング方法は、それらを微調整データに組み込むことで、削除しようとしているプライベート情報に基づいて最適化されている。
本研究では,未学習目標を学習対象に含まない新しい非学習手法-部分的モデル崩壊(PMC)を提案する。
論文 参考訳(メタデータ) (2025-07-06T03:08:49Z) - Align-then-Unlearn: Embedding Alignment for LLM Unlearning [41.94295877935867]
Unlearningは、個人情報や著作権のあるコンテンツなど、訓練されたモデルから特定のデータを選択的に取り除こうとしている。
セマンティック埋め込み空間においてアンラーニングを行う新しいフレームワークであるAlign-then-Unlearnを提案する。
論文 参考訳(メタデータ) (2025-06-16T07:48:01Z) - Learn while Unlearn: An Iterative Unlearning Framework for Generative Language Models [52.40798352740857]
3つのコアコンポーネントで構成されるICU(Iterative Contrastive Unlearning)フレームワークを紹介する。
知識未学習誘導モジュールは、未学習の損失を使用して、特定の知識を除去するためにターゲットとする。
Contrastive Learning Enhancementモジュールは、純粋な未学習の目標に対してモデルの表現力を保持する。
イテレーティブ・アンラーニング・リファインメントモジュールは、進行中の評価と更新を通じて、アンラーニングプロセスを動的に調整する。
論文 参考訳(メタデータ) (2024-07-25T07:09:35Z) - Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning
Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。
課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。
我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。
トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-12-07T07:17:24Z) - Can Bad Teaching Induce Forgetting? Unlearning in Deep Networks using an
Incompetent Teacher [6.884272840652062]
そこで本研究では,学習者・教師の知能・能力に乏しい教師を学習者・教師の枠組みで探究し,忘れがちさを誘発する手法を提案する。
有能で無能な教師からの知識は、学生に選択的に伝達され、忘れデータに関する情報を含まないモデルが得られる。
ゼロ・ナッシング(ZRF)メトリクスを導入し、未学習の手法を評価する。
論文 参考訳(メタデータ) (2022-05-17T05:13:17Z) - Machine Unlearning of Features and Labels [72.81914952849334]
機械学習モデルにおけるアンラーニングとラベルのファーストシナリオを提案する。
提案手法は,影響関数の概念に基づいて,モデルパラメータのクローズドフォーム更新によるアンラーニングを実現する。
論文 参考訳(メタデータ) (2021-08-26T04:42:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。