Fugu-MT 論文翻訳(概要): Simplicity Prevails: Rethinking Negative Preference Optimization for LLM Unlearning

論文の概要: Simplicity Prevails: Rethinking Negative Preference Optimization for LLM Unlearning

arxiv url: http://arxiv.org/abs/2410.07163v1
Date: Mon, 28 Oct 2024 19:55:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-31 21:56:57.457820
Title: Simplicity Prevails: Rethinking Negative Preference Optimization for LLM Unlearning
Title（参考訳）: 単純さの優位性: LLMアンラーニングにおける否定的選好最適化の再考
Authors: Chongyu Fan, Jiancheng Liu, Licong Lin, Jinghan Jia, Ruiqi Zhang, Song Mei, Sijia Liu,
Abstract要約: 我々は、不要なデータの影響と関連するモデル機能を取り除くことを目的とした、大規模言語モデル(LLM)アンラーニングの問題に対処する。我々はSimNPOと呼ばれるシンプルで効果的なアンラーニング最適化フレームワークを提案し、参照モデルに依存しない場合の「単純さ」がアンラーニングの恩恵をもたらすことを示す。
参考スコア（独自算出の注目度）: 27.991291785091736
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work, we address the problem of large language model (LLM) unlearning, aiming to remove unwanted data influences and associated model capabilities (e.g., copyrighted data or harmful content generation) while preserving essential model utilities, without the need for retraining from scratch. Despite the growing need for LLM unlearning, a principled optimization framework remains lacking. To this end, we revisit the state-of-the-art approach, negative preference optimization (NPO), and identify the issue of reference model bias, which could undermine NPO's effectiveness, particularly when unlearning forget data of varying difficulty. Given that, we propose a simple yet effective unlearning optimization framework, called SimNPO, showing that 'simplicity' in removing the reliance on a reference model (through the lens of simple preference optimization) benefits unlearning. We also provide deeper insights into SimNPO's advantages, supported by analysis using mixtures of Markov chains. Furthermore, we present extensive experiments validating SimNPO's superiority over existing unlearning baselines in benchmarks like TOFU and MUSE, and robustness against relearning attacks. Codes are available at https://github.com/OPTML-Group/Unlearn-Simple.
Abstract（参考訳）: 本研究では、不要なデータの影響や関連するモデル機能(著作権付きデータや有害コンテンツ生成など)を、スクラッチから再学習することなく、必要不可欠なモデルユーティリティを保ちながら除去することを目的とした、大規模言語モデル(LLM)アンラーニングの問題に対処する。 LLMアンラーニングの必要性が高まっているにもかかわらず、原則化された最適化フレームワークはいまだに欠如している。この目的のために、我々は最先端のアプローチ、負の選好最適化(NPO)を再検討し、NPOの有効性を損なう可能性のある参照モデルバイアスの問題を特定する。そこで我々は,SimNPOと呼ばれるシンプルで効果的なアンラーニング最適化フレームワークを提案し,参照モデルへの依存を除去する'単純さ'が,アンラーニングの恩恵をもたらすことを示した。また、マルコフ連鎖の混合物を用いた解析により、SimNPOの利点についてより深い知見を提供する。さらに,TOFUやMUSEなどのベンチマークにおいて,既存の未学習ベースラインよりもSimNPOの方が優れていること,再学習攻撃に対する堅牢性を検証した広範な実験を行った。コードはhttps://github.com/OPTML-Group/Unlearn-Simpleで入手できる。

関連論文リスト

Improving LLM-based Recommendation with Self-Hard Negatives from Intermediate Layers [80.55429742713623]
ILRecはLLMベースのレコメンデーションシステムのための新しい好みの微調整フレームワークである。負の信号に対してトークンレベルの報酬を割り当てるための軽量な協調フィルタリングモデルを提案する。 3つのデータセットの実験は、LLMベースのレコメンデータシステムの性能向上におけるILRecの有効性を示している。
論文参考訳（メタデータ） (2026-02-19T14:37:43Z)
Efficient Utility-Preserving Machine Unlearning with Implicit Gradient Surgery [30.346382763036598]
マシン・アンラーニング(MU)は、事前訓練されたモデルからセンシティブまたは有害なメモリを効率的に除去することを目的としている。鍵となる課題は、未学習の有効性とユーティリティの保存との間の潜在的なトレードオフをバランスさせることである。本稿では,1つのバックプロパゲーションのみによる制約付き最適化問題の解を近似する暗黙的勾配手術法を提案する。
論文参考訳（メタデータ） (2025-10-25T02:49:26Z)
Downgrade to Upgrade: Optimizer Simplification Enhances Robustness in LLM Unlearning [25.53799024782883]
大言語モデル(LLM)は、既存のモデルから望ましくないデータや知識の影響を外科的に除去することを目的としている。最近の知見は、ウェイト量子化や微調整のような未学習操作が、意図した忘れを迅速に中和できることを示している。
論文参考訳（メタデータ） (2025-10-01T10:50:14Z)
Optimizers Qualitatively Alter Solutions And We Should Leverage This [62.662640460717476]
ディープニューラルネットワーク(DNN)は、SGDのようなローカル情報のみを使用する場合、損失のグローバルな最小限に収束することを保証できない。コミュニティは、既存のメソッドのバイアスを理解すること、また、ソリューションの特定の特性を誘発する明示的な意図で、新しいDNNを構築することを目的としている。
論文参考訳（メタデータ） (2025-07-16T13:33:31Z)
The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。 UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文参考訳（メタデータ） (2025-03-04T18:56:03Z)
Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
線形最小化オラクル(LMO)を用いて問題の幾何学に適応する新しいアルゴリズム群を提案する。我々は,Adamに頼らずに,我々のアルゴリズムであるScionを用いたナノGPTトレーニングの大幅な高速化を示す。
論文参考訳（メタデータ） (2025-02-11T13:10:34Z)
Feasible Learning [78.6167929413604]
本稿では,サンプル中心の学習パラダイムであるFeasible Learning(FL)を紹介する。大規模言語モデルにおける画像分類, 年齢回帰, 好みの最適化といった経験的分析により, FLを用いて訓練したモデルでは, 平均的性能に限界があるものの, ERMと比較して改善された尾の挙動を示しながらデータから学習できることが実証された。
論文参考訳（メタデータ） (2025-01-24T20:39:38Z)
Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文参考訳（メタデータ） (2024-09-26T12:37:26Z)
Alternate Preference Optimization for Unlearning Factual Knowledge in Large Language Models [2.0962367975513496]
機械学習は、特定のトレーニングデータの影響をモデルから効率的に排除することを目的としている。既存の未学習手法は, 無視集合に関連する応答を抑制するために, 負のフィードバックのみに頼っている。本稿では,AltPO(Alternate Preference Optimization)と呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2024-09-20T13:05:07Z)
Self-Evolutionary Large Language Models through Uncertainty-Enhanced Preference Optimization [9.618391485742968]
反復的選好最適化は、最近、大規模言語モデル(LLM)のデファクトトレーニングパラダイムの1つになっている。我々は、信頼性の高いフィードバックでLLMを自己進化させる不確実性のあるtextbfPreference textbfOptimizationフレームワークを提案する。筆者らのフレームワークは,ノイズ問題を大幅に軽減し,反復的選好最適化の性能を向上させる。
論文参考訳（メタデータ） (2024-09-17T14:05:58Z)
Unlearning with Control: Assessing Real-world Utility for Large Language Model Unlearning [97.2995389188179]
最近の研究は、勾配上昇(GA)を通した大規模言語モデル(LLM)の未学習にアプローチし始めている。その単純さと効率性にもかかわらず、我々はGAベースの手法が過剰な未学習の傾向に直面することを示唆している。過剰な未学習の度合いを制御できるいくつかの制御手法を提案する。
論文参考訳（メタデータ） (2024-06-13T14:41:00Z)
Aligning Large Language Models via Fine-grained Supervision [20.35000061196631]
事前訓練された大規模言語モデル(LLM)は、一貫性のある記事を生成するのに優れていますが、そのアウトプットは非現実的、有毒、あるいはユーザの期待に沿わないかもしれません。現在のアプローチは、モデルアライメントを改善するために、人間のフィードバックによる強化学習を使うことに重点を置いている。トークンレベルの微粒化によるLCMアライメント向上手法を提案する。
論文参考訳（メタデータ） (2024-06-04T20:21:45Z)
Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文参考訳（メタデータ） (2024-05-31T14:21:04Z)
Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-05-29T17:59:07Z)
Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文参考訳（メタデータ） (2024-05-26T05:38:50Z)
Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。 MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文参考訳（メタデータ） (2024-05-26T00:29:04Z)
Negative Preference Optimization: From Catastrophic Collapse to Effective Unlearning [28.059563581973432]
LLM(Large Language Models)は、事前トレーニング中に機密性のある、プライベートな、あるいは著作権のあるデータを持つことが多い。 LLMは、事前学習されたモデルから望ましくないデータの影響を取り除くことを目的としている。我々は、ターゲットデータセットを効率的に解放できる単純なアライメントにインスパイアされた方法として、NPO(Negative Preference Optimization)を提案する。
論文参考訳（メタデータ） (2024-04-08T21:05:42Z)
Model-based Offline Imitation Learning with Non-expert Data [7.615595533111191]
本稿では,最適条件と最適条件の両方で収集されたデータセットを活用する,スケーラブルなモデルベースオフライン模倣学習アルゴリズムフレームワークを提案する。提案手法は, シミュレーションされた連続制御領域上での低データ構造における振舞いクローンよりも優れることを示す。
論文参考訳（メタデータ） (2022-06-11T13:08:08Z)
Pessimistic Q-Learning for Offline Reinforcement Learning: Towards Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-02-28T15:39:36Z)
Prior Guided Feature Enrichment Network for Few-Shot Segmentation [64.91560451900125]
最先端のセマンティックセグメンテーション手法は、良い結果を得るために十分なラベル付きデータを必要とする。少数のラベル付きサポートサンプルを持つ新しいクラスに迅速に適応するモデルを学習することで,この問題に対処するためのショットセグメンテーションが提案されている。これらのフレームワークは、高レベルのセマンティック情報の不適切な使用により、目に見えないクラスにおける一般化能力の低下という課題に直面している。
論文参考訳（メタデータ） (2020-08-04T10:41:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。