論文の概要: The Crucial Role of Samplers in Online Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2409.19605v3
- Date: Sun, 02 Feb 2025 09:18:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-04 16:07:29.861071
- Title: The Crucial Role of Samplers in Online Direct Preference Optimization
- Title(参考訳): オンライン直接選好最適化におけるサンプリングの役割
- Authors: Ruizhe Shi, Runlong Zhou, Simon S. Du,
- Abstract要約: 我々はDPOの収束率を厳密に解析し、正確な勾配設定の下で異なるサンプリング戦略で解析する。
提案するオンラインサンプリングは$textbflinear$ convergenceを達成する一方、均一サンプリングは$textbflinear$ convergenceを達成する。
例えば、Safe-RLHFデータセットでバニラDPOを74ドル以上上回っている。
- 参考スコア(独自算出の注目度): 36.68862142959827
- License:
- Abstract: Direct Preference Optimization (DPO) has emerged as a stable, scalable, and efficient solution for language model alignment. Despite its empirical success, the optimization properties, particularly the impact of samplers on its convergence rates, remain under-explored. In this paper, we provide a rigorous analysis of DPO's convergence rates with different sampling strategies under the exact gradient setting, revealing a surprising separation: uniform sampling achieves $\textbf{linear}$ convergence, while our proposed online sampler achieves $\textbf{quadratic}$ convergence. We further adapt the sampler to practical settings by incorporating posterior distributions and logit mixing, demonstrating improvements over previous methods. For example, it outperforms vanilla DPO by over $7.4$% on Safe-RLHF dataset. Our results not only offer insights into the theoretical understanding of DPO but also pave the way for further algorithm designs.
- Abstract(参考訳): DPO(Direct Preference Optimization)は、言語モデルアライメントのための安定的でスケーラブルで効率的なソリューションとして登場した。
実験的な成功にもかかわらず、最適化特性、特に試料の収束率への影響は、未調査のままである。
本稿では,DPOの収束率を厳密に解析し,厳密な勾配設定の下で異なるサンプリング戦略を用いて解析し,一様サンプリングが$\textbf{linear}$収束を達成し,提案したオンラインサンプリングが$\textbf{quadratic}$収束を達成したことを示す。
さらに, 後方分布とロジット混合を取り入れ, 従来の手法よりも改良されたサンプルを実用化した。
例えば、Safe-RLHFデータセットでバニラDPOを74ドル以上上回っている。
我々の結果は、DPOの理論的理解に関する洞察を提供するだけでなく、さらなるアルゴリズム設計の道を開いた。
関連論文リスト
- Direct Distributional Optimization for Provable Alignment of Diffusion Models [39.048284342436666]
分布最適化の観点から拡散モデルの新しいアライメント手法を提案する。
まず、確率分布に対する一般正規化損失最小化として問題を定式化する。
本研究では,Doob の $h$-transform 技術を用いてスコア関数を近似することにより,学習した分布からのサンプリングを可能にする。
論文 参考訳(メタデータ) (2025-02-05T07:35:15Z) - Calibrated Multi-Preference Optimization for Aligning Diffusion Models [92.90660301195396]
Calibrated Preference Optimization (CaPO) は、テキスト・ツー・イメージ(T2I)拡散モデルを調整する新しい手法である。
CaPOは、人間の注釈のない複数の報酬モデルからの一般的な好みを取り入れている。
実験結果から, CaPOは従来法よりも常に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-04T18:59:23Z) - Distributionally Robust Direct Preference Optimization [15.328510632723505]
大規模言語モデルを人間の好みに合わせる上での大きな課題は、分散シフトの問題である。
WDPO(Wasserstein DPO)とKLDPO(Kullback-Leibler DPO)という,分散的に堅牢な直接選好最適化アルゴリズムを新たに開発した。
本実験は,WDPOとKLDPOが優先分布シフトの際のアライメントを大幅に改善する上で,優れた性能を示すものである。
論文 参考訳(メタデータ) (2025-02-04T02:03:19Z) - Refining Alignment Framework for Diffusion Models with Intermediate-Step Preference Ranking [50.325021634589596]
拡散モデルと人間の嗜好を整合させるためのTalored Optimization Preference(TailorPO)フレームワークを提案する。
提案手法は,ステップワイド報酬に基づいて,中間雑音のサンプルを直接ランク付けし,勾配方向の問題を効果的に解決する。
実験結果から,本手法は審美的,人為的な画像生成能力を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-02-01T16:08:43Z) - Preference Optimization with Multi-Sample Comparisons [53.02717574375549]
本稿では,マルチサンプル比較を含むポストトレーニングの拡張手法を提案する。
これらのアプローチは、生成的多様性やバイアスといった重要な特徴を捉えられない。
マルチサンプル比較はシングルサンプル比較よりも集団特性の最適化に有効であることを示す。
論文 参考訳(メタデータ) (2024-10-16T00:59:19Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Robust Preference Optimization through Reward Model Distillation [68.65844394615702]
言語モデル (LM) は、好みのアノテーションから派生した報酬関数を最大化する。
DPOは、報酬モデルや強化学習を適用することなく、優先データに直接ポリシーを訓練する一般的なオフラインアライメント手法である。
この現象を解析し, 生成対よりも真の嗜好分布のより良いプロキシを得るため, 蒸留を提案する。
論文 参考訳(メタデータ) (2024-05-29T17:39:48Z) - RS-DPO: A Hybrid Rejection Sampling and Direct Preference Optimization Method for Alignment of Large Language Models [7.676477609461592]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルとユーザの意図を結びつけるために広く採用されている。
DPOは、ポリシーモデルではなく、人間のアノテーションと代替LDMから生成される対照的な反応に依存している。
本稿では,サンプリングリジェクション(RS)とDPOを体系的に組み合わせることで,両課題に対処する。
提案手法は,資源環境が制限されたLLMを効果的に微調整し,ユーザ意図との整合性を向上する。
論文 参考訳(メタデータ) (2024-02-15T16:00:58Z) - Statistical Rejection Sampling Improves Preference Optimization [42.57245965632205]
提案手法は,リジェクションサンプリングを用いた最適ポリシーからのソース選好データに対する新しいアプローチを提案する。
また、嗜好モデルの観点から、SLiC(Sequence Likelihood)とDPO(Direct Preference Optimization)の両方で使用される損失関数を強化する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-13T01:07:25Z) - Sample Dropout: A Simple yet Effective Variance Reduction Technique in
Deep Policy Optimization [18.627233013208834]
重要度サンプリングを用いることで, 目的推定値に高いばらつきが生じる可能性が示唆された。
そこで本研究では, サンプルの偏差が高すぎる場合に, サンプルをドロップアウトすることで, 推定分散を束縛する, サンプルドロップアウトと呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2023-02-05T04:44:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。