論文の概要: What Is Preference Optimization Doing, How and Why?
- arxiv url: http://arxiv.org/abs/2512.00778v1
- Date: Sun, 30 Nov 2025 08:27:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.416095
- Title: What Is Preference Optimization Doing, How and Why?
- Title(参考訳): 優先度最適化とは何か、どのようにしてなぜか?
- Authors: Yue Wang, Qizhou Wang, Zizhuo Zhang, Ang Li, Gang Niu, Bo Han, Masashi Sugiyama,
- Abstract要約: 一般的な考え方は、DPOは教師付き学習であり、PPOは強化学習である。
まず、勾配に基づく更新の目標方向を調べ、DPOが安定した目標に従うのに対し、PPOは探索とエクスプロイトのバランスをとる動的目標に従う。
第2に、PO法における3つの重要な要素である正の学習、負の学習、損失再重み付けの役割について検討する。
- 参考スコア(独自算出の注目度): 73.78865043839939
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Preference optimization (PO) is indispensable for large language models (LLMs), with methods such as direct preference optimization (DPO) and proximal policy optimization (PPO) achieving great success. A common belief is that DPO is supervised learning while PPO is reinforcement learning, yet deeper analyses for the reasons underlying these differences remain lacking. To fill this gap, we analyze their optimization dynamics, revealing distinct algorithmic behaviors and comprehending their underlying causes. First, we examine the target directions of gradient-based updates and find that DPO follows stable targets, whereas PPO follows dynamic targets that balance exploration and exploitation, thus validating the common belief from a new perspective. Second, we examine the roles of positive learning, negative learning, and loss reweighting, which are three key components in PO methods. Our analyses reveal that these components play fairly different roles. In DPO, positive and negative learning jointly shape the learning targets meanwhile mutually offset each other. However, loss reweighting in DPO acts less as a reward signal but more as a regularizer to mitigate overfitting. In PPO, negative learning primarily supports exploration rather than determining the targets. Meanwhile, loss reweighting, related to absolute values of token-level advantages, indicates the distinct roles of token groups in updating targets. Given these findings, we conduct carefully designed ablation studies to further examine how controlling these dynamics impacts optimization efficiency and practical performance. The insights gained from our analyses not only deepen the understanding of PO methods but also inspire the development of more preference-aligned LLMs.
- Abstract(参考訳): 優先度最適化(PO)は、大きな言語モデル(LLM)には必須であり、直接優先度最適化(DPO)や近似ポリシー最適化(PPO)といった手法が大きな成功を収めている。
一般的な考え方は、DPOは教師付き学習であり、PPOは強化学習である。
このギャップを埋めるために、最適化のダイナミクスを分析し、異なるアルゴリズムの振る舞いを明らかにし、根本原因を理解する。
まず、勾配に基づく更新の目標方向を調べ、DPOが安定した目標に従うのに対して、PPOは探索とエクスプロイトのバランスをとる動的目標に従うので、新しい視点から共通の信念を検証できる。
第2に、PO法における3つの重要な要素である正の学習、負の学習、損失再重み付けの役割について検討する。
分析の結果,これらの成分は異なる役割を担っていることが明らかとなった。
DPOでは、正と負の学習が相互に相反する学習対象を共同で形成する。
しかし、DPOの損失再重み付けは報酬信号としてではなく、オーバーフィッティングを緩和するための正規化器として機能する。
PPOでは、ネガティブな学習は主にターゲットを決定するのではなく、探索をサポートする。
一方、トークンレベルのアドバンテージの絶対値に関連する損失再重み付けは、ターゲット更新におけるトークングループの役割を明確に示す。
これらの結果を踏まえ、これらのダイナミクスの制御が最適化効率と実用性能にどう影響するかをさらに検討するため、慎重に設計されたアブレーション研究を行う。
この分析から得られた知見は,PO手法の理解を深めるだけでなく,より嗜好に整合したLCMの開発を促すものである。
関連論文リスト
- On-Policy RL with Optimal Reward Baseline [109.47676554514193]
On-Policy RL with Optimal reward baseline (OPO) は、新しい簡易強化学習アルゴリズムである。
OPOは、訓練プロセスを実証的に安定化し、探索を強化する、正確なオンライントレーニングの重要性を強調している。
その結果、OPOの優れた性能と訓練安定性を、追加のモデルや正規化条件なしで示すことができた。
論文 参考訳(メタデータ) (2025-05-29T15:58:04Z) - On the Effect of Negative Gradient in Group Relative Deep Reinforcement Optimization [52.76330545825083]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力の向上に人気がある。
従来認識されていなかった Lazy Likelihood Displacement (LLD) 現象を同定し, トレーニング中に正答率がわずかに増加するか, あるいは低下する可能性が示唆された。
従来のDPOベースのアプローチとは異なり、NTHRはGRPOのグループベースの構造を利用して、適切な応答をアンカーとして利用し、重要なトークンを識別する。
論文 参考訳(メタデータ) (2025-05-24T18:58:51Z) - TIS-DPO: Token-level Importance Sampling for Direct Preference Optimization With Estimated Weights [73.9088920210495]
本稿では,TIS-DPO と呼ばれるトークン単位の重要度サンプリング DPO の目的について,その報酬に基づいて各トークンに重要度を割り当てる手法を提案する。
TIS-DPOは、無害性、有用性アライメントおよび要約タスクにおいて、様々なベースライン手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-10-06T04:03:00Z) - 3D-Properties: Identifying Challenges in DPO and Charting a Path Forward [17.27880657597116]
我々はDPOを再考し、その理論的基礎と経験的性能を分析した。
DPOの学習過程から生じる3つの重要な特性、いわゆる3D特性を同定する。
トレーニングの安定性と性能を向上させるための簡単な正規化手法を提案する。
論文 参考訳(メタデータ) (2024-06-11T14:59:24Z) - Direct Alignment of Language Models via Quality-Aware Self-Refinement [31.845241241178982]
そこで本研究では,本研究における本質的知識の活用について検討し,相対的特性の獲得と損失関数の高度化に寄与する。
構築された精細化関数は、軽度の仮定の下で損失関数を自己再定義するのに役立つことを示す。
実験は、DPOやIPOよりも細調整されたモデルの性能を向上させることができることを示している。
論文 参考訳(メタデータ) (2024-05-31T17:31:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。