論文の概要: The Crucial Role of Samplers in Online Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2409.19605v2
- Date: Sun, 6 Oct 2024 02:22:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 22:18:46.538283
- Title: The Crucial Role of Samplers in Online Direct Preference Optimization
- Title(参考訳): オンライン直接選好最適化におけるサンプリングの役割
- Authors: Ruizhe Shi, Runlong Zhou, Simon S. Du,
- Abstract要約: DPO(Direct Preference Optimization)は、言語モデルアライメントのための安定的でスケーラブルで効率的なソリューションとして登場した。
我々はDPOの$textitconvergence rate$の厳密な分析を行い、正確な勾配設定の下で異なるサンプリング戦略を示す。
この結果は,DPOの理論的立場に関する知見を提供するとともに,潜在的なアルゴリズム設計の道を開くものである。
- 参考スコア(独自算出の注目度): 36.68862142959827
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Direct Preference Optimization (DPO) has emerged as a stable, scalable, and efficient solution for language model alignment. Despite its empirical success, the $\textit{optimization}$ properties, particularly the impact of samplers on its convergence rates, remain underexplored. In this paper, we provide a rigorous analysis of DPO's $\textit{convergence rates}$ with different sampling strategies under the exact gradient setting, revealing a surprising separation: uniform sampling achieves $\textit{linear}$ convergence, while our proposed online sampler achieves $\textit{quadratic}$ convergence. We further adapt the sampler to practical settings by incorporating posterior distributions and $\textit{logit mixing}$, demonstrating significant improvements over previous approaches. On Safe-RLHF dataset, our method exhibits a $4.5$% improvement over vanilla DPO and a $3.0$% improvement over on-policy DPO; on Iterative-Prompt, our approach outperforms vanilla DPO, on-policy DPO, and Hybrid GSHF by over $4.2$%. Our results not only offer insights into the theoretical standing of DPO but also pave the way for potential algorithm designs in the future.
- Abstract(参考訳): DPO(Direct Preference Optimization)は、言語モデルアライメントのための安定的でスケーラブルで効率的なソリューションとして登場した。
経験的な成功にもかかわらず、$\textit{optimization}$プロパティ、特に、その収束率に対するサンプルの影響は未定のままである。
本稿では,DPO の $\textit{convergence rate}$ の厳密な分析を行い,厳密な勾配設定の下で異なるサンプリング戦略を用いて,一様サンプリングが $\textit{linear}$ 収束を達成し,提案するオンラインサンプリングは $\textit{quadratic}$ 収束を達成した。
さらに、後続分布と$\textit{logit mix}$を組み込むことにより、サンプルを実用的な設定に適応させ、従来のアプローチよりも大幅に改善したことを示す。
Safe-RLHFデータセットでは,バニラDPOよりも4.5ドル%,オンポラDPOより3.0ドル%,Iterative-PromptではバニラDPO,オンポラDPO,Hybrid GSHFよりも4.2ドル%向上した。
我々の結果は、DPOの理論的立場に関する洞察を提供するだけでなく、将来的なアルゴリズム設計の道を開いた。
関連論文リスト
- $f$-PO: Generalizing Preference Optimization with $f$-divergence Minimization [91.43730624072226]
$f$-POは、既存のアプローチを一般化し拡張する新しいフレームワークである。
ベンチマークデータセットを用いて最先端言語モデルの実験を行う。
論文 参考訳(メタデータ) (2024-10-29T02:11:45Z) - $α$-DPO: Adaptive Reward Margin is What Direct Preference Optimization Needs [45.46582930202524]
$alpha$-DPOは、大規模言語モデルの適応的優先最適化アルゴリズムである。
ポリシーモデルと参照モデルのバランスを取り、パーソナライズされた報酬マージンを達成する。
さまざまなモデル設定でDPOとSimPOを一貫して上回ります。
論文 参考訳(メタデータ) (2024-10-14T04:29:57Z) - Minor DPO reject penalty to increase training robustness [8.971332948872185]
人間の嗜好からの学習は、ダウンストリームタスクにおいて、事前学習されたLLMを人間の嗜好に合わせるために、大規模言語モデル(LLM)の微調整ステップで使用されるパラダイムである。
近年,簡易なRLフリー手法でアライメント問題を解決するために,DPO(Direct Preference Optimization)が提案されている。
本稿では、DPOにおける$beta$の動作メカニズムを分析し、RLアルゴリズムとDPOの構文差を明らかにし、DPOの単純化による潜在的な不足について理解する。
論文 参考訳(メタデータ) (2024-08-19T09:29:31Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Correcting the Mythos of KL-Regularization: Direct Alignment without Overoptimization via Chi-Squared Preference Optimization [78.82586283794886]
新たなオフラインアライメントアルゴリズムである$chi2$-Preference Optimization(chi$PO)を提案する。
$chi$POは、正規化による不確実性に直面して悲観主義の原理を実装している。
過度な最適化には確実に堅牢であり、単一政治の集中性に基づいたサンプル複雑度保証を実現する。
論文 参考訳(メタデータ) (2024-07-18T11:08:40Z) - $β$-DPO: Direct Preference Optimization with Dynamic $β$ [45.63597733177275]
直接選好最適化(DPO)は、人間の嗜好に従うために大規模言語モデル(LLM)を訓練するための魅力的なアプローチとして登場した。
我々は、$beta$とデータ品質がDPOに与える影響を分析し、最適な$beta$値がペアデータの情報性によって異なることを明らかにする。
バッチレベルで$beta$を動的に校正する新しいフレームワークを導入し、データ品質を考慮に入れます。
論文 参考訳(メタデータ) (2024-07-11T16:21:18Z) - D2PO: Discriminator-Guided DPO with Response Evaluation Models [63.71853401569461]
学習を通して嗜好が収集されるオンライン環境において,識別器誘導型DPOであるD2POを提案する。
金の選好を収集する際、これらは政策の訓練だけでなく、銀ラベルによる政策訓練のためのさらに総合的なデータに対する差別的な反応評価モデルを訓練するために利用します。
DPOで政策を訓練し、従来のPPOを上回り、政策モデルから分離した差別者を維持することの恩恵を受けるのが最も効果的である。
論文 参考訳(メタデータ) (2024-05-02T17:44:41Z) - Statistical Rejection Sampling Improves Preference Optimization [42.57245965632205]
提案手法は,リジェクションサンプリングを用いた最適ポリシーからのソース選好データに対する新しいアプローチを提案する。
また、嗜好モデルの観点から、SLiC(Sequence Likelihood)とDPO(Direct Preference Optimization)の両方で使用される損失関数を強化する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-13T01:07:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。