Fugu-MT 論文翻訳(概要): 3D-Properties: Identifying Challenges in DPO and Charting a Path Forward

論文の概要: 3D-Properties: Identifying Challenges in DPO and Charting a Path Forward

arxiv url: http://arxiv.org/abs/2406.07327v2
Date: Fri, 07 Feb 2025 00:02:26 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-10 18:29:32.67986
Title: 3D-Properties: Identifying Challenges in DPO and Charting a Path Forward
Title（参考訳）: 3D-Properties:DPOにおける課題の特定と今後への道のり
Authors: Yuzi Yan, Yibo Miao, Jialian Li, Yipin Zhang, Jian Xie, Zhijie Deng, Dong Yan,
Abstract要約: 我々はDPOを再考し、その理論的基礎と経験的性能を分析した。 DPOの学習過程から生じる3つの重要な特性、いわゆる3D特性を同定する。トレーニングの安定性と性能を向上させるための簡単な正規化手法を提案する。
参考スコア（独自算出の注目度）: 17.27880657597116
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Aligning large language models (LLMs) with human preferences has gained significant attention, with Proximal Policy Optimization (PPO) as a standard yet computationally expensive method and Direct Preference Optimization (DPO) as a more efficient alternative. While DPO offers simplicity, it remains underutilized in state-of-the-art LLMs, suggesting potential limitations. In this work, we revisit DPO, analyzing its theoretical foundations and empirical performance to bridge this gap. We identify three key properties, termed 3D properties, that emerge from DPO's learning process: Drastic drop in rejected response likelihood, Degradation into response suppression, and Dispersion effect on unseen responses. We show that these issues arise from DPO's optimization dynamics, where the interaction between chosen and rejected response gradients leads to instability. Our findings are supported by experiments on both a controlled toy model and real-world LLM tasks, including mathematical problem-solving and instruction following. To address these challenges, we propose simple regularization techniques that improve training stability and performance. Additionally, we examine how preference data distribution impacts DPO's effectiveness, offering insights into how alignment models handle out-of-domain (OOD) data. Our work connects these observations to broader research and provides a theoretical explanation for DPO's limitations. We hope these insights will guide future advancements in reward-model-free preference learning, bringing it closer to reward-model-based approaches.
Abstract（参考訳）: 人間の好みに合わせた大規模言語モデル(LLM)の調整が注目され、PPO(Proximal Policy Optimization)が標準的だが計算に費用がかかる手法として、DPO(Direct Preference Optimization)がより効率的な代替手段として用いられるようになった。 DPOは単純さを提供するが、最先端のLLMでは未使用のままであり、潜在的な制限を示唆している。本研究はDPOを再考し,その理論的基礎と経験的性能を分析し,このギャップを埋めるものである。 DPOの学習プロセスから生じる3つの重要な特性を同定する: 拒否応答可能性の劇的な低下、応答抑制への劣化、そして目に見えない応答に対する分散効果。これらの問題は、選択された応答勾配と拒否された応答勾配の相互作用が不安定をもたらすDPOの最適化力学から生じる。本研究は, 制御された玩具モデルと実世界のLLMタスクの両方において, 数学的問題解決と指導を含む実験によって支援された。これらの課題に対処するために、トレーニングの安定性と性能を改善するシンプルな正規化手法を提案する。さらに、嗜好データ分布がDPOの有効性にどのように影響するかを考察し、アライメントモデルがドメイン外データ(OOD)をどのように扱うかについての洞察を提供する。我々の研究は、これらの観測をより広範な研究に結びつけ、DPOの限界に関する理論的説明を提供する。これらの知見が、報酬モデルなしの嗜好学習の今後の進歩を導くことを願っており、報酬モデルに基づくアプローチに近づきつつある。

関連論文リスト

What Is Preference Optimization Doing, How and Why? [73.78865043839939]
一般的な考え方は、DPOは教師付き学習であり、PPOは強化学習である。まず、勾配に基づく更新の目標方向を調べ、DPOが安定した目標に従うのに対し、PPOは探索とエクスプロイトのバランスをとる動的目標に従う。第2に、PO法における3つの重要な要素である正の学習、負の学習、損失再重み付けの役割について検討する。
論文参考訳（メタデータ） (2025-11-30T08:27:59Z)
Beyond Reward Margin: Rethinking and Resolving Likelihood Displacement in Diffusion Models via Video Generation [6.597818816347323]
直接選好最適化は、選択されたサンプルと拒否されたサンプルを区別することにより、生成出力を人間の選好に合わせることを目的としている。 DPOの限界は、トレーニング中に選択されたサンプルの確率がパラドックス的に減少する確率変位である。本稿では,Adaptive Rejection Scaling (ARS) と Implicit Preference Regularization (IPR) を組み合わせた新しいソリューションである Policy-Guided DPO を紹介する。実験の結果,PG-DPOは測定値と定性評価の両方において既存手法よりも優れていた。
論文参考訳（メタデータ） (2025-11-24T12:37:49Z)
What Matters in Data for DPO? [6.208229499655634]
DPO(Direct Preference Optimization)は、大規模言語モデルを人間の好みに合わせるためのシンプルで効果的なアプローチとして登場した。本研究では,DPOの嗜好データ分布が理論的・経験的両面からどう影響するかを体系的に検討する。選択された応答の質がDPOの目的を最適化する上で重要な役割を担っているのに対し、拒否された応答の質は比較的限定的な影響を持つ可能性があることを示す。
論文参考訳（メタデータ） (2025-08-23T16:00:30Z)
Perception-Aware Policy Optimization for Multimodal Reasoning [79.56070395437898]
現在のマルチモーダル推論における誤りの主な原因は、視覚入力の知覚にある。提案するPAPOは,モデルが推論を学習しながら知覚を学習することを奨励する,新しいポリシー勾配アルゴリズムである。知覚誤りの30.5%が有意に減少し,PAPOによる知覚能力の向上が示唆された。
論文参考訳（メタデータ） (2025-07-08T23:22:34Z)
Explicit Preference Optimization: No Need for an Implicit Reward Model [18.225409932618657]
直接選好最適化(DPO)とそのオフシュートは、個別の報酬トレーニングステップの必要性を回避する。 DPOをベースとした目的は,しかしながら,準最適正規化や反直観的アーティファクトの対象であることを示す。
論文参考訳（メタデータ） (2025-06-09T07:11:01Z)
Understanding the Performance Gap in Preference Learning: A Dichotomy of RLHF and DPO [51.22869332661607]
本研究では,人間からのフィードバックからの強化学習と,表現ギャップ下での直接選好最適化との間の性能ギャップを分解する。 RLHF, DPO, オンラインDPOは, モデルミスのタイプによって, 互いに優れることを示す。
論文参考訳（メタデータ） (2025-05-26T09:54:02Z)
A Survey of Direct Preference Optimization [103.59317151002693]
LLM(Large Language Models)は、前例のない生成能力を示す。人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
論文参考訳（メタデータ） (2025-03-12T08:45:15Z)
Entropy Controllable Direct Preference Optimization [3.536605202672355]
提案するDPOは,提案するポリシのエントロピーを制御可能なH-DPOである。実験の結果,H-DPO は様々なタスクにおいて DPO よりも優れており,数理タスクに対するpass@$k$ 評価において優れた結果が得られた。
論文参考訳（メタデータ） (2024-11-12T07:09:44Z)
A Comprehensive Survey of Direct Preference Optimization: Datasets, Theories, Variants, and Applications [52.42860559005861]
DPO(Direct Preference Optimization)は、アライメントのための有望なアプローチとして登場した。 DPOの様々な進歩と固有の制限にもかかわらず、これらの側面の詳細なレビューは現在、文献に欠けている。
論文参考訳（メタデータ） (2024-10-21T02:27:24Z)
TIS-DPO: Token-level Importance Sampling for Direct Preference Optimization With Estimated Weights [73.9088920210495]
本稿では,TIS-DPO と呼ばれるトークン単位の重要度サンプリング DPO の目的について,その報酬に基づいて各トークンに重要度を割り当てる手法を提案する。 TIS-DPOは、無害性、有用性アライメントおよび要約タスクにおいて、様々なベースライン手法を著しく上回っている。
論文参考訳（メタデータ） (2024-10-06T04:03:00Z)
ASFT: Aligned Supervised Fine-Tuning through Absolute Likelihood [14.512464277772194]
Aligned Supervised Fine-Tuning (ASFT)は、大規模言語モデルとペアワイズデータセットの整合性を改善する効果的なアプローチである。 ASFTは、DPO損失関数が人間の不適切なデータを生成する確率を減少させる問題を緩和する。大規模な実験により、ASFTは効果的なアライメントアプローチであり、既存の手法より一貫して優れていることが示された。
論文参考訳（メタデータ） (2024-09-14T11:39:13Z)
Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。 DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文参考訳（メタデータ） (2024-08-14T11:29:47Z)
Understanding Reference Policies in Direct Preference Optimization [50.67309013764383]
DPO(Direct Preference Optimization)は、大規模言語モデル(LLM)の微調整のための訓練手法として広く使われている。この研究は、参照モデルやポリシーに依存しているDPOの未検討の側面を探求する。
論文参考訳（メタデータ） (2024-07-18T17:08:10Z)
Direct Alignment of Language Models via Quality-Aware Self-Refinement [31.845241241178982]
そこで本研究では,本研究における本質的知識の活用について検討し,相対的特性の獲得と損失関数の高度化に寄与する。構築された精細化関数は、軽度の仮定の下で損失関数を自己再定義するのに役立つことを示す。実験は、DPOやIPOよりも細調整されたモデルの性能を向上させることができることを示している。
論文参考訳（メタデータ） (2024-05-31T17:31:18Z)
From $r$ to $Q^*$: Your Language Model is Secretly a Q-Function [50.812404038684505]
我々は,ベルマン方程式を満たす一般逆Q-ラーニングアルゴリズムとして,トークンレベルMDPのDPOを導出できることを示す。本稿では,マルチターン対話における情報活用,推論,エージェント応用,マルチモデルシステムのエンドツーエンドトレーニングなど,我々の研究の応用について論じる。
論文参考訳（メタデータ） (2024-04-18T17:37:02Z)
Towards Analyzing and Understanding the Limitations of DPO: A Theoretical Perspective [25.34250859820326]
DPOの最適化過程を解析するためにフィールド理論を用いた分析フレームワークを提供する。 DPO損失関数は、好むデータを生成する確率を増大させるよりも速い速度で人間の非推奨データを生成する確率を減少させる。
論文参考訳（メタデータ） (2024-04-06T13:24:37Z)
Mixed Preference Optimization: Reinforcement Learning with Data Selection and Better Reference Model [3.300814846990438]
大きな言語モデル(LLM)は、自然言語の処理と生成能力によって、ますます人気が高まっている。大量のテキストのデータセットでトレーニングされているため、LLMは有害なバイアスを継承し、人間の値と一致しない出力を生成することができる。本稿では,人間フィードバックを用いた強化学習(RLHF)と直接選好最適化(DPO)のような対照的な学習手法の2つのLLMアライメントについて検討する。 RLHFとDPOの安定性とロバスト性を解析することにより,両手法の弱点を緩和する新しい手法MPOを提案する。
論文参考訳（メタデータ） (2024-03-28T14:15:10Z)
Secrets of RLHF in Large Language Models Part I: PPO [81.01936993929127]
大規模言語モデル (LLMs) は、人工知能の進歩のためのブループリントを定式化した。人間のフィードバックによる強化学習(RLHF)がこの追求を支える重要な技術パラダイムとして出現する。本稿では、RLHFの枠組みを解明し、PPOの内部構造を再評価し、PPOアルゴリズムを構成する部分が政策エージェントの訓練にどのように影響するかを考察する。
論文参考訳（メタデータ） (2023-07-11T01:55:24Z)
Fine-Tuning Language Models with Advantage-Induced Policy Alignment [80.96507425217472]
大規模言語モデルと人間の嗜好を整合させる新しいアルゴリズムを提案する。言語タスクにおいてPPOを常に上回り、大きなマージンを持つことを示す。また,損失関数の設計を支援する理論的正当性も提供する。
論文参考訳（メタデータ） (2023-06-04T01:59:40Z)
Mind the Trade-off: Debiasing NLU Models without Degrading the In-distribution Performance [70.31427277842239]
信頼性正則化という新しいデバイアス化手法を導入する。モデルがバイアスを悪用するのを防ぐと同時に、トレーニングのすべての例から学ぶのに十分なインセンティブを得られるようにします。提案手法を3つのNLUタスクで評価し,前者とは対照的に,アウト・オブ・ディストリビューション・データセットの性能が向上することを示す。
論文参考訳（メタデータ） (2020-05-01T11:22:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。