論文の概要: Negative Preference Optimization: From Catastrophic Collapse to Effective Unlearning
- arxiv url: http://arxiv.org/abs/2404.05868v2
- Date: Thu, 10 Oct 2024 22:00:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-14 13:30:20.722514
- Title: Negative Preference Optimization: From Catastrophic Collapse to Effective Unlearning
- Title(参考訳): 負の選好最適化:破滅的な崩壊から効果的な未学習へ
- Authors: Ruiqi Zhang, Licong Lin, Yu Bai, Song Mei,
- Abstract要約: LLM(Large Language Models)は、事前トレーニング中に機密性のある、プライベートな、あるいは著作権のあるデータを持つことが多い。
LLMは、事前学習されたモデルから望ましくないデータの影響を取り除くことを目的としている。
我々は、ターゲットデータセットを効率的に解放できる単純なアライメントにインスパイアされた方法として、NPO(Negative Preference Optimization)を提案する。
- 参考スコア(独自算出の注目度): 28.059563581973432
- License:
- Abstract: Large Language Models (LLMs) often memorize sensitive, private, or copyrighted data during pre-training. LLM unlearning aims to eliminate the influence of undesirable data from the pre-trained model while preserving the model's utilities on other tasks. Several practical methods have recently been proposed for LLM unlearning, mostly based on gradient ascent (GA) on the loss of undesirable data. However, on certain unlearning tasks, these methods either fail to effectively unlearn the target data or suffer from catastrophic collapse -- a drastic degradation of the model's utilities. In this paper, we propose Negative Preference Optimization (NPO), a simple alignment-inspired method that could efficiently and effectively unlearn a target dataset. We theoretically show that the progression toward catastrophic collapse by minimizing the NPO loss is exponentially slower than GA. Through experiments on synthetic data and the benchmark TOFU dataset, we demonstrate that NPO-based methods achieve a better balance between unlearning the undesirable data and maintaining the model's utilities. We also observe that NPO-based methods generate more sensible outputs than GA-based methods, whose outputs are often gibberish. Remarkably, on TOFU, NPO-based methods are the first to achieve reasonable unlearning results in forgetting 50% (or more) of the training data, whereas existing methods already struggle with forgetting 10% of training data.
- Abstract(参考訳): LLM(Large Language Models)は、事前トレーニング中に機密データ、プライベートデータ、著作権データを記憶する。
LLMアンラーニングは、学習済みのモデルから望ましくないデータの影響を排除し、モデルのユーティリティを他のタスクに保存することを目的としている。
LLMアンラーニングのためのいくつかの実践的手法が提案されているが、その大部分は望ましくないデータの損失に基づく勾配上昇(GA)に基づいている。
しかし、特定の未学習タスクでは、これらのメソッドはターゲットデータを効果的に解き放つことができず、あるいは破滅的な崩壊に苦しむ。
本稿では、ターゲットデータセットを効率よく効果的に解放できる単純なアライメントにインスパイアされた方法であるNPO(Negative Preference Optimization)を提案する。
NPO損失の最小化による破滅的崩壊の進行がGAよりも指数関数的に遅いことを理論的に示す。
合成データとベンチマークTOFUデータセットの実験を通じて、NPOベースの手法が、望ましくないデータの学習とモデルのユーティリティの維持のバランスを改善することを実証した。
また,NPO法はGA法よりも高感度な出力を生成する。
注目すべきは、TOFUでは、NPOベースの手法がトレーニングデータの50%(またはそれ以上)を忘れる上で、適切な未学習結果を達成するのに最初に苦労しているのに対して、既存の手法では、トレーニングデータの10%を忘れることに苦労していることだ。
関連論文リスト
- Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Simplicity Prevails: Rethinking Negative Preference Optimization for LLM Unlearning [27.991291785091736]
我々は、不要なデータの影響と関連するモデル機能を取り除くことを目的とした、大規模言語モデル(LLM)アンラーニングの問題に対処する。
我々はSimNPOと呼ばれるシンプルで効果的なアンラーニング最適化フレームワークを提案し、参照モデルに依存しない場合の「単純さ」がアンラーニングの恩恵をもたらすことを示す。
論文 参考訳(メタデータ) (2024-10-09T17:58:12Z) - TCGU: Data-centric Graph Unlearning based on Transferable Condensation [36.670771080732486]
Transferable Condensation Graph Unlearning (TCGU)は、ゼロガンスグラフアンラーニングのためのデータ中心のソリューションである。
我々は,TGUが既存のGU手法よりもモデルユーティリティ,未学習効率,未学習効率において優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2024-10-09T02:14:40Z) - Towards Robust and Cost-Efficient Knowledge Unlearning for Large Language Models [25.91643745340183]
大規模言語モデル(LLM)は、大量のテキストコーパスの事前学習を通じて、強い推論と記憶能力を示す。
これはプライバシーと著作権侵害のリスクを生じさせ、効率的な機械学習手法の必要性を強調している。
LLMのための堅牢で効率的なアンラーニングのための2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2024-08-13T04:18:32Z) - Unlearning with Control: Assessing Real-world Utility for Large Language Model Unlearning [97.2995389188179]
最近の研究は、勾配上昇(GA)を通した大規模言語モデル(LLM)の未学習にアプローチし始めている。
その単純さと効率性にもかかわらず、我々はGAベースの手法が過剰な未学習の傾向に直面することを示唆している。
過剰な未学習の度合いを制御できるいくつかの制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data [102.16105233826917]
好みラベルからの学習は、微調整された大きな言語モデルにおいて重要な役割を果たす。
好みの微調整には、教師付き学習、オンライン強化学習(RL)、コントラスト学習など、いくつかの異なるアプローチがある。
論文 参考訳(メタデータ) (2024-04-22T17:20:18Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。