論文の概要: Distribution Preference Optimization: A Fine-grained Perspective for LLM Unlearning
- arxiv url: http://arxiv.org/abs/2510.04773v1
- Date: Mon, 06 Oct 2025 12:49:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.865901
- Title: Distribution Preference Optimization: A Fine-grained Perspective for LLM Unlearning
- Title(参考訳): 分散選好最適化:LLMアンラーニングのきめ細かい視点
- Authors: Kai Qin, Jiaqi Wu, Jianxiang He, Haoyuan Sun, Yifei Zhao, Bin Liang, Yongzhe Chang, Tiantian Zhang, Houde Liu,
- Abstract要約: モデルユーティリティ全体を維持しながら、特定のデータの影響を取り除くことを目的としたアンラーニングは、重要な研究領域になりつつある。
textbfDistribution textbfPreference textbfOptimization (DiPO)と呼ばれる新しい未学習アルゴリズムを導出する。
DiPOはTOFUベンチマークで最高の品質を獲得し、MUSEベンチマークで主要なスケーラビリティと持続可能性を維持している。
- 参考スコア(独自算出の注目度): 26.120338506874976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Large Language Models (LLMs) demonstrate remarkable capabilities learned from vast corpora, concerns regarding data privacy and safety are receiving increasing attention. LLM unlearning, which aims to remove the influence of specific data while preserving overall model utility, is becoming an important research area. One of the mainstream unlearning classes is optimization-based methods, which achieve forgetting directly through fine-tuning, exemplified by Negative Preference Optimization (NPO). However, NPO's effectiveness is limited by its inherent lack of explicit positive preference signals. Attempts to introduce such signals by constructing preferred responses often necessitate domain-specific knowledge or well-designed prompts, fundamentally restricting their generalizability. In this paper, we shift the focus to the distribution-level, directly targeting the next-token probability distribution instead of entire responses, and derive a novel unlearning algorithm termed \textbf{Di}stribution \textbf{P}reference \textbf{O}ptimization (DiPO). We show that the requisite preference distribution pairs for DiPO, which are distributions over the model's output tokens, can be constructed by selectively amplifying or suppressing the model's high-confidence output logits, thereby effectively overcoming NPO's limitations. We theoretically prove the consistency of DiPO's loss function with the desired unlearning direction. Extensive experiments demonstrate that DiPO achieves a strong trade-off between model utility and forget quality. Notably, DiPO attains the highest forget quality on the TOFU benchmark, and maintains leading scalability and sustainability in utility preservation on the MUSE benchmark.
- Abstract(参考訳): 大規模言語モデル(LLM)が巨大なコーパスから学んだ顕著な能力を示すにつれ、データのプライバシと安全性に関する懸念が高まっている。
LLMアンラーニングは、モデルユーティリティ全体を維持しながら、特定のデータの影響を取り除くことを目的としており、重要な研究領域となっている。
主要なアンラーニングクラスの1つは最適化に基づくメソッドであり、NPO(Negative Preference Optimization)によって実証された微調整によって直接忘れることができる。
しかし、NPOの有効性は、明示的な肯定的な選好シグナルの欠如によって制限されている。
このようなシグナルを導入しようとする試みは、しばしばドメイン固有の知識やよく設計されたプロンプトを必要とし、その一般化性を根本的に制限する。
本稿では,全応答ではなく,次の確率分布を直接対象とする分布レベルに焦点を移し,新しいアンラーニングアルゴリズムである \textbf{Di}stribution \textbf{P}reference \textbf{O}ptimization (DiPO) を導出する。
モデルの出力トークン上の分布であるDiPOの要求優先分布ペアは、モデルの高信頼出力ロジットを選択的に増幅または抑制することにより構築でき、NPOの制限を効果的に克服できることを示す。
理論的には、DiPOの損失関数と所望の未学習方向との整合性を証明している。
大規模な実験により、DiPOはモデルユーティリティと品質の忘れとの強いトレードオフを達成している。
特に、DiPOはTOFUベンチマークの最高品質を達成し、MUSEベンチマークのユーティリティ保存における主要なスケーラビリティと持続可能性を維持している。
関連論文リスト
- Stable Preference Optimization for LLMs: A Bilevel Approach Beyond Direct Preference Optimization [2.384797824772941]
確率進化の観点からDPOのダイナミクスを包括的に分析する。
本稿では,教師付き微調整とDPO目標,すなわち安定な選好最適化とを密に統合する理論的基礎を持つ二段階最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-10T12:57:39Z) - Self-NPO: Negative Preference Optimization of Diffusion Models by Simply Learning from Itself without Explicit Preference Annotations [60.143658714894336]
拡散モデルは、画像、ビデオ、および3Dコンテンツ生成を含む様々な視覚生成タスクにおいて顕著な成功を収めている。
優先度最適化(PO)は、これらのモデルを人間の嗜好に合わせることを目的とした、顕著で成長している研究分野である。
モデル自体からのみ学習する負の選好最適化アプローチであるSelf-NPOを導入する。
論文 参考訳(メタデータ) (2025-05-17T01:03:46Z) - Leveraging Robust Optimization for LLM Alignment under Distribution Shifts [52.983390470606146]
人間の値に整合した出力を生成するために、大規模言語モデルを操る上で、優先順位アライメント手法はますます重要になっている。
このようなシフトに拘わらず、好みのアライメントを改善する新しい分布対応最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-08T09:14:38Z) - A Survey of Direct Preference Optimization [103.59317151002693]
LLM(Large Language Models)は、前例のない生成能力を示す。
人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。
直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
論文 参考訳(メタデータ) (2025-03-12T08:45:15Z) - TIS-DPO: Token-level Importance Sampling for Direct Preference Optimization With Estimated Weights [73.9088920210495]
本稿では,TIS-DPO と呼ばれるトークン単位の重要度サンプリング DPO の目的について,その報酬に基づいて各トークンに重要度を割り当てる手法を提案する。
TIS-DPOは、無害性、有用性アライメントおよび要約タスクにおいて、様々なベースライン手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-10-06T04:03:00Z) - Direct Alignment of Language Models via Quality-Aware Self-Refinement [31.845241241178982]
そこで本研究では,本研究における本質的知識の活用について検討し,相対的特性の獲得と損失関数の高度化に寄与する。
構築された精細化関数は、軽度の仮定の下で損失関数を自己再定義するのに役立つことを示す。
実験は、DPOやIPOよりも細調整されたモデルの性能を向上させることができることを示している。
論文 参考訳(メタデータ) (2024-05-31T17:31:18Z) - DPO Meets PPO: Reinforced Token Optimization for RLHF [35.638723885233475]
本稿では,トークンワイド報酬関数を選好データから学習し,この学習したトークンワイド報酬信号に基づいてポリシー最適化を行うアルゴリズムを提案する。
実験により、texttRTOはPPOや他の直接選好学習アルゴリズムよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-04-29T17:58:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。