論文の概要: Understanding the Impact of Sampling Quality in Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2506.04272v1
- Date: Tue, 03 Jun 2025 18:12:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.317657
- Title: Understanding the Impact of Sampling Quality in Direct Preference Optimization
- Title(参考訳): 直接選好最適化におけるサンプリング品質の影響を理解する
- Authors: Kyung Rok Kim, Yumo Bai, Chonghuan Wang, Guanting Chen,
- Abstract要約: まず、勾配降下時のポリシー更新に応答の分布がどう影響するかを解析する。
そこで我々は,簡易かつよく構造化されたアライメントモデルをプロキシとして設計し,より頻繁な高品質応答が勾配信号を増幅することを示す定量的結果を開発した。
- 参考スコア(独自算出の注目度): 2.1624199216631625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the role of the sampling distribution in Direct Preference Optimization (DPO) and aim to understand its impact on DPO's training dynamics. Our analyses show that both the solution space and the convergence behavior of DPO depend on the support and quality of the generating distribution. We first analyze how distribution of responses influences policy updates during gradient descent, drawing connections to common phenomena found in practice. We then design a simplified yet well-structured alignment model as a proxy, and develop quantitative results showing how more frequent high-quality responses amplify the gradient signal and improve the optimization landscape, leading to more effective policy learning. Our theoretical findings are supported by empirical experiments and provide a principled justification for the online DPO framework in practice.
- Abstract(参考訳): 直接選好最適化(DPO)におけるサンプリング分布の役割について検討し、DPOのトレーニング力学への影響を理解することを目的とした。
解析の結果、DPOの解空間と収束挙動は、生成分布の支持と品質に依存することがわかった。
まず, 反応の分布が勾配降下時の政策更新にどのように影響するかを解析し, 実際に見られる共通現象に関連づける。
そこで我々は,簡易かつよく構造化されたアライメントモデルをプロキシとして設計し,より頻繁な高品質な応答が勾配信号を増幅し,最適化環境を改善することによって,より効果的なポリシー学習をもたらすことを示す定量的結果を開発した。
我々の理論的な知見は実証実験によって裏付けられ、実際にオンラインDPOフレームワークの原理的な正当化を提供する。
関連論文リスト
- Understanding the Performance Gap in Preference Learning: A Dichotomy of RLHF and DPO [51.22869332661607]
本研究では,人間からのフィードバックからの強化学習と,表現ギャップ下での直接選好最適化との間の性能ギャップを分解する。
RLHF, DPO, オンラインDPOは, モデルミスのタイプによって, 互いに優れることを示す。
論文 参考訳(メタデータ) (2025-05-26T09:54:02Z) - SGDPO: Self-Guided Direct Preference Optimization for Language Model Alignment [46.55132297735257]
本稿では,最適化過程における勾配流の制御にパイロット項を組み込んだ自己ガイド型直接選好最適化アルゴリズム,すなわちSGDPOを提案する。
本稿では,提案手法の詳細な理論的解析を行い,その動作機構を解明する。
論文 参考訳(メタデータ) (2025-05-18T14:19:23Z) - Gradient Imbalance in Direct Preference Optimization [26.964127989679596]
計算効率のよい勾配再重み付け機構を導入するDPOの目的に対して, 単純かつ効果的な修正である Balanced-DPO を提案する。
本実験は, バランスドDPOの有効性を実証し, 理論的結果の検証と, DPOの性能向上の鍵となる勾配不均衡への対処について検証した。
論文 参考訳(メタデータ) (2025-02-28T08:47:03Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - 3D-Properties: Identifying Challenges in DPO and Charting a Path Forward [17.27880657597116]
我々はDPOを再考し、その理論的基礎と経験的性能を分析した。
DPOの学習過程から生じる3つの重要な特性、いわゆる3D特性を同定する。
トレーニングの安定性と性能を向上させるための簡単な正規化手法を提案する。
論文 参考訳(メタデータ) (2024-06-11T14:59:24Z) - Overcoming Reward Overoptimization via Adversarial Policy Optimization with Lightweight Uncertainty Estimation [46.61909578101735]
AdvPO(Adversarial Policy Optimization)は、人間からの強化学習における報酬過度最適化の問題に対する新しい解決策である。
本稿では,報酬モデルの最後の層埋め込みにのみ依存して,報酬の不確実性を定量化する軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。