論文の概要: The Crucial Role of Samplers in Online Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2409.19605v1
- Date: Sun, 29 Sep 2024 07:53:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:06:47.476320
- Title: The Crucial Role of Samplers in Online Direct Preference Optimization
- Title(参考訳): オンライン直接選好最適化におけるサンプリングの役割
- Authors: Ruizhe Shi, Runlong Zhou, Simon S. Du,
- Abstract要約: DPO(Direct Preference Optimization)は、言語モデルアライメントのための安定的でスケーラブルで効率的なソリューションとして登場した。
我々はDPOの$textitconvergence rate$の厳密な分析を行い、正確な勾配設定の下で異なるサンプリング戦略を示す。
この結果は,DPOの理論的立場に関する知見を提供するとともに,潜在的なアルゴリズム設計の道を開くものである。
- 参考スコア(独自算出の注目度): 36.68862142959827
- License:
- Abstract: Direct Preference Optimization (DPO) has emerged as a stable, scalable, and efficient solution for language model alignment. Despite its empirical success, the $\textit{optimization}$ properties, particularly the impact of samplers on its convergence rates, remain underexplored. In this paper, we provide a rigorous analysis of DPO's $\textit{convergence rates}$ with different sampling strategies under the exact gradient setting, revealing a surprising separation: uniform sampling achieves $\textit{linear}$ convergence, while our proposed online sampler achieves $\textit{quadratic}$ convergence. We further adapt the sampler to practical settings by incorporating posterior distributions and $\textit{logit mixing}$, demonstrating significant improvements over previous approaches. On Safe-RLHF dataset, our method exhibits a $4.5$% improvement over vanilla DPO and a $3.0$% improvement over on-policy DPO; on Iterative-Prompt, our approach outperforms vanilla DPO, on-policy DPO, and Hybrid GSHF by over $4.2$%. Our results not only offer insights into the theoretical standing of DPO but also pave the way for potential algorithm designs in the future.
- Abstract(参考訳): DPO(Direct Preference Optimization)は、言語モデルアライメントのための安定的でスケーラブルで効率的なソリューションとして登場した。
経験的な成功にもかかわらず、$\textit{optimization}$プロパティ、特に、その収束率に対するサンプルの影響は未定のままである。
本稿では,DPO の $\textit{convergence rate}$ の厳密な分析を行い,厳密な勾配設定の下で異なるサンプリング戦略を用いて,一様サンプリングが $\textit{linear}$ 収束を達成し,提案するオンラインサンプリングは $\textit{quadratic}$ 収束を達成した。
さらに、後続分布と$\textit{logit mix}$を組み込むことにより、サンプルを実用的な設定に適応させ、従来のアプローチよりも大幅に改善したことを示す。
Safe-RLHFデータセットでは,バニラDPOよりも4.5ドル%,オンポラDPOより3.0ドル%,Iterative-PromptではバニラDPO,オンポラDPO,Hybrid GSHFよりも4.2ドル%向上した。
我々の結果は、DPOの理論的立場に関する洞察を提供するだけでなく、将来的なアルゴリズム設計の道を開いた。
関連論文リスト
- Correcting the Mythos of KL-Regularization: Direct Alignment without Overoptimization via Chi-Squared Preference Optimization [78.82586283794886]
新たなオフラインアライメントアルゴリズムである$chi2$-Preference Optimization(chi$PO)を提案する。
$chi$POは、正規化による不確実性に直面して悲観主義の原理を実装している。
過度な最適化には確実に堅牢であり、単一政治の集中性に基づいたサンプル複雑度保証を実現する。
論文 参考訳(メタデータ) (2024-07-18T11:08:40Z) - $β$-DPO: Direct Preference Optimization with Dynamic $β$ [45.63597733177275]
直接選好最適化(DPO)は、人間の嗜好に従うために大規模言語モデル(LLM)を訓練するための魅力的なアプローチとして登場した。
我々は、$beta$とデータ品質がDPOに与える影響を分析し、最適な$beta$値がペアデータの情報性によって異なることを明らかにする。
バッチレベルで$beta$を動的に校正する新しいフレームワークを導入し、データ品質を考慮に入れます。
論文 参考訳(メタデータ) (2024-07-11T16:21:18Z) - D2PO: Discriminator-Guided DPO with Response Evaluation Models [63.71853401569461]
学習を通して嗜好が収集されるオンライン環境において,識別器誘導型DPOであるD2POを提案する。
金の選好を収集する際、これらは政策の訓練だけでなく、銀ラベルによる政策訓練のためのさらに総合的なデータに対する差別的な反応評価モデルを訓練するために利用します。
DPOで政策を訓練し、従来のPPOを上回り、政策モデルから分離した差別者を維持することの恩恵を受けるのが最も効果的である。
論文 参考訳(メタデータ) (2024-05-02T17:44:41Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、反復的なポリシー更新を通じてナッシュ均衡を近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Token-level Direct Preference Optimization [8.249403373337024]
微調整された事前訓練された大規模言語モデルは、それらを人間の価値観や意図と整合させるのに不可欠である。
トークンレベルでポリシーを最適化することにより,LLMと人間の嗜好を一致させる新しいアプローチである,トークンレベルの直接選好最適化(TDPO)を導入する。
論文 参考訳(メタデータ) (2024-04-18T08:49:38Z) - RS-DPO: A Hybrid Rejection Sampling and Direct Preference Optimization Method for Alignment of Large Language Models [7.676477609461592]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルとユーザの意図を結びつけるために広く採用されている。
DPOは、ポリシーモデルではなく、人間のアノテーションと代替LDMから生成される対照的な反応に依存している。
本稿では,サンプリングリジェクション(RS)とDPOを体系的に組み合わせることで,両課題に対処する。
提案手法は,資源環境が制限されたLLMを効果的に微調整し,ユーザ意図との整合性を向上する。
論文 参考訳(メタデータ) (2024-02-15T16:00:58Z) - Statistical Rejection Sampling Improves Preference Optimization [42.57245965632205]
提案手法は,リジェクションサンプリングを用いた最適ポリシーからのソース選好データに対する新しいアプローチを提案する。
また、嗜好モデルの観点から、SLiC(Sequence Likelihood)とDPO(Direct Preference Optimization)の両方で使用される損失関数を強化する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-13T01:07:25Z) - You May Not Need Ratio Clipping in PPO [117.03368180633463]
Proximal Policy Optimization (PPO) 法は、複数のミニバッチ最適化エポックを1組のサンプルデータで反復的に実行することでポリシーを学習する。
比率クリッピングPPOは、ターゲットポリシーとサンプル収集に使用されるポリシーの確率比をクリップする一般的な変種である。
本論文では, この比クリッピングが有効に結合できないため, 良好な選択ではないことを示す。
ESPOは、多くのワーカーによる分散トレーニングに簡単にスケールアップでき、パフォーマンスも高いことを示す。
論文 参考訳(メタデータ) (2022-01-31T20:26:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。