論文の概要: Understanding the Impact of Sampling Quality in Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2506.04272v2
- Date: Sat, 11 Oct 2025 01:06:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 15:48:08.753884
- Title: Understanding the Impact of Sampling Quality in Direct Preference Optimization
- Title(参考訳): 直接選好最適化におけるサンプリング品質の影響を理解する
- Authors: Kyung Rok Kim, Yumo Bai, Chonghuan Wang, Guanting Chen,
- Abstract要約: 我々は、DPO(Direct Preference Optimization)において、より高い品質のデータをどのように活用してパフォーマンスを向上させるかを検討する。
解析の結果、DPOの解空間と収束挙動は、データ生成分布の支持と品質に依存することがわかった。
- 参考スコア(独自算出の注目度): 4.122673728216191
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study how data of higher quality can be leveraged to improve performance in Direct Preference Optimization (DPO), aiming to understand its impact on DPO training dynamics. Our analyses show that both the solution space and the convergence behavior of DPO depend on the support and quality of the data-generating distribution. We first analyze how data and reference policy influence policy updates during gradient descent, and how a practical phenomenon known as likelihood displacement can interfere with the desired dynamics. We then design a simplified yet well-structured alignment model as a proxy that preserves most of the beneficial properties of RLHF while avoiding likelihood displacement. Based on this model, we develop quantitative results showing how more frequent high-quality responses amplify the gradient signal and improve the optimization landscape, leading to more effective policy learning. Our theoretical findings are supported by empirical experiments and provide a principled justification for the online DPO framework in practice.
- Abstract(参考訳): そこで本研究では,DPOトレーニングのダイナミクスへの影響を理解することを目的とした,DPO(Direct Preference Optimization)において,高品質なデータをどのように活用してパフォーマンスを向上させるかを検討する。
解析の結果、DPOの解空間と収束挙動は、データ生成分布の支持と品質に依存することがわかった。
まず、勾配降下時のデータおよび参照ポリシーが政策更新にどのように影響するか、そして、確率変位と呼ばれる実用的な現象が、望ましい力学にどのように干渉するかを分析する。
次に、RLHFの利点のほとんどを保ちつつ、確率変位を回避できるプロキシとして、簡易かつよく構造化されたアライメントモデルを設計する。
このモデルに基づいて、より頻繁な高品質な応答が勾配信号を増幅し、最適化のランドスケープを向上し、より効果的なポリシー学習につながることを示す定量的な結果を開発した。
我々の理論的な知見は実証実験によって裏付けられ、実際にオンラインDPOフレームワークの原理的な正当化を提供する。
関連論文リスト
- Improving DAPO from a Mixed-Policy Perspective [0.0]
本稿では,動的sAmpling Policy Optimization (DAPO)アルゴリズムに2つの新しい修正を加えている。
まず、政治以外の経験を提供するための、事前訓練された安定した指導方針を取り入れた手法を提案する。
次に、このアイデアを拡張してゼロ逆サンプルを再利用し、しばしば動的サンプリング戦略によって破棄される。
論文 参考訳(メタデータ) (2025-07-17T09:12:09Z) - Stable Preference Optimization for LLMs: A Bilevel Approach Beyond Direct Preference Optimization [2.384797824772941]
確率進化の観点からDPOのダイナミクスを包括的に分析する。
本稿では,教師付き微調整とDPO目標,すなわち安定な選好最適化とを密に統合する理論的基礎を持つ二段階最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-10T12:57:39Z) - Understanding the Performance Gap in Preference Learning: A Dichotomy of RLHF and DPO [51.22869332661607]
本研究では,人間からのフィードバックからの強化学習と,表現ギャップ下での直接選好最適化との間の性能ギャップを分解する。
RLHF, DPO, オンラインDPOは, モデルミスのタイプによって, 互いに優れることを示す。
論文 参考訳(メタデータ) (2025-05-26T09:54:02Z) - SGDPO: Self-Guided Direct Preference Optimization for Language Model Alignment [46.55132297735257]
本稿では,最適化過程における勾配流の制御にパイロット項を組み込んだ自己ガイド型直接選好最適化アルゴリズム,すなわちSGDPOを提案する。
本稿では,提案手法の詳細な理論的解析を行い,その動作機構を解明する。
論文 参考訳(メタデータ) (2025-05-18T14:19:23Z) - A Survey of Direct Preference Optimization [103.59317151002693]
LLM(Large Language Models)は、前例のない生成能力を示す。
人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。
直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
論文 参考訳(メタデータ) (2025-03-12T08:45:15Z) - Gradient Imbalance in Direct Preference Optimization [26.964127989679596]
計算効率のよい勾配再重み付け機構を導入するDPOの目的に対して, 単純かつ効果的な修正である Balanced-DPO を提案する。
本実験は, バランスドDPOの有効性を実証し, 理論的結果の検証と, DPOの性能向上の鍵となる勾配不均衡への対処について検証した。
論文 参考訳(メタデータ) (2025-02-28T08:47:03Z) - Refining Alignment Framework for Diffusion Models with Intermediate-Step Preference Ranking [50.325021634589596]
拡散モデルと人間の嗜好を整合させるためのTalored Optimization Preference(TailorPO)フレームワークを提案する。
提案手法は,ステップワイド報酬に基づいて,中間雑音のサンプルを直接ランク付けし,勾配方向の問題を効果的に解決する。
実験結果から,本手法は審美的,人為的な画像生成能力を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-02-01T16:08:43Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - 3D-Properties: Identifying Challenges in DPO and Charting a Path Forward [17.27880657597116]
我々はDPOを再考し、その理論的基礎と経験的性能を分析した。
DPOの学習過程から生じる3つの重要な特性、いわゆる3D特性を同定する。
トレーニングの安定性と性能を向上させるための簡単な正規化手法を提案する。
論文 参考訳(メタデータ) (2024-06-11T14:59:24Z) - Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - Overcoming Reward Overoptimization via Adversarial Policy Optimization with Lightweight Uncertainty Estimation [46.61909578101735]
AdvPO(Adversarial Policy Optimization)は、人間からの強化学習における報酬過度最適化の問題に対する新しい解決策である。
本稿では,報酬モデルの最後の層埋め込みにのみ依存して,報酬の不確実性を定量化する軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。