論文の概要: A General Framework to Enhance Fine-tuning-based LLM Unlearning
- arxiv url: http://arxiv.org/abs/2502.17823v1
- Date: Tue, 25 Feb 2025 04:03:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:23:07.181830
- Title: A General Framework to Enhance Fine-tuning-based LLM Unlearning
- Title(参考訳): ファインチューニングに基づくLLMアンラーニングを支援する汎用フレームワーク
- Authors: Jie Ren, Zhenwei Dai, Xianfeng Tang, Hui Liu, Jingying Zeng, Zhen Li, Rahul Goutam, Suhang Wang, Yue Xing, Qi He, Hui Liu,
- Abstract要約: Gated Representation UNlearning (GRUN) は、ターゲットデータと抑圧モジュールを区別するソフトゲート機能である。
実験により、GRUNは未学習と実用性を大幅に改善することが示された。
微調整に基づく手法では一般的であり、逐次的アンラーニングには効率的で有望である。
- 参考スコア(独自算出の注目度): 36.20715249854748
- License:
- Abstract: Unlearning has been proposed to remove copyrighted and privacy-sensitive data from Large Language Models (LLMs). Existing approaches primarily rely on fine-tuning-based methods, which can be categorized into gradient ascent-based (GA-based) and suppression-based methods. However, they often degrade model utility (the ability to respond to normal prompts). In this work, we aim to develop a general framework that enhances the utility of fine-tuning-based unlearning methods. To achieve this goal, we first investigate the common property between GA-based and suppression-based methods. We unveil that GA-based methods unlearn by distinguishing the target data (i.e., the data to be removed) and suppressing related generations, which is essentially the same strategy employed by suppression-based methods. Inspired by this finding, we introduce Gated Representation UNlearning (GRUN) which has two components: a soft gate function for distinguishing target data and a suppression module using Representation Fine-tuning (ReFT) to adjust representations rather than model parameters. Experiments show that GRUN significantly improves the unlearning and utility. Meanwhile, it is general for fine-tuning-based methods, efficient and promising for sequential unlearning.
- Abstract(参考訳): Unlearningは、Large Language Models (LLMs)から著作権とプライバシーに敏感なデータを削除するために提案されている。
既存の手法は主に微調整法に依存しており、勾配法(GA法)と抑制法に分類できる。
しかし、それらはしばしばモデルユーティリティ(通常のプロンプトに応答する能力)を劣化させる。
本研究では,微調整に基づくアンラーニング手法の有用性を高めるための汎用フレームワークを開発することを目的とする。
この目的を達成するために,まずGA法と抑制法との共通性について検討する。
我々は,GAベースの手法が,対象データ(削除すべきデータ)を識別し,関連する世代を抑圧することで,未学習となることを明らかにした。
この発見にインスパイアされたGated Representation UNlearning (GRUN) は、ターゲットデータを識別するソフトゲート関数と、Representation Fine-tuning (ReFT) を用いた抑制モジュールの2つのコンポーネントを持ち、モデルパラメータではなく表現を調整する。
実験により、GRUNは未学習と実用性を大幅に改善することが示された。
一方、微調整に基づく手法では一般的であり、逐次的アンラーニングには効率的で有望である。
関連論文リスト
- Negative Preference Optimization: From Catastrophic Collapse to Effective Unlearning [28.059563581973432]
LLM(Large Language Models)は、事前トレーニング中に機密性のある、プライベートな、あるいは著作権のあるデータを持つことが多い。
LLMは、事前学習されたモデルから望ましくないデータの影響を取り除くことを目的としている。
我々は、ターゲットデータセットを効率的に解放できる単純なアライメントにインスパイアされた方法として、NPO(Negative Preference Optimization)を提案する。
論文 参考訳(メタデータ) (2024-04-08T21:05:42Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - Style Interleaved Learning for Generalizable Person Re-identification [69.03539634477637]
DG ReIDトレーニングのための新しいスタイルインターリーブラーニング(IL)フレームワークを提案する。
従来の学習戦略とは異なり、ILには2つの前方伝播と1つの後方伝播が組み込まれている。
我々のモデルはDG ReIDの大規模ベンチマークにおいて最先端の手法を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2022-07-07T07:41:32Z) - Enhancing the Generalization for Intent Classification and Out-of-Domain
Detection in SLU [70.44344060176952]
インテント分類は、音声言語理解(SLU)における主要な課題である
近年の研究では、余分なデータやラベルを使用することで、OOD検出性能が向上することが示されている。
本稿では、IND意図分類とOOD検出の両方をサポートしながら、INDデータのみを用いてモデルを訓練することを提案する。
論文 参考訳(メタデータ) (2021-06-28T08:27:38Z) - Integer Programming for Causal Structure Learning in the Presence of
Latent Variables [28.893119229428713]
本稿では,整数プログラミング(IP)の定式化を解き,連続変数の集合に対してスコア最大化祖先ADMGを返却する,新しい正確なスコアベース手法を提案する。
特に、DAG学習問題に対する最先端IPモデルを一般化し、有効な不等式の新しいクラスを導出し、IPベースのADMG学習モデルを形式化する。
論文 参考訳(メタデータ) (2021-02-05T12:10:16Z) - Prior Guided Feature Enrichment Network for Few-Shot Segmentation [64.91560451900125]
最先端のセマンティックセグメンテーション手法は、良い結果を得るために十分なラベル付きデータを必要とする。
少数のラベル付きサポートサンプルを持つ新しいクラスに迅速に適応するモデルを学習することで,この問題に対処するためのショットセグメンテーションが提案されている。
これらのフレームワークは、高レベルのセマンティック情報の不適切な使用により、目に見えないクラスにおける一般化能力の低下という課題に直面している。
論文 参考訳(メタデータ) (2020-08-04T10:41:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。