論文の概要: Preference Optimization via Contrastive Divergence: Your Reward Model is Secretly an NLL Estimator
- arxiv url: http://arxiv.org/abs/2502.04567v1
- Date: Thu, 06 Feb 2025 23:45:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:56:46.325337
- Title: Preference Optimization via Contrastive Divergence: Your Reward Model is Secretly an NLL Estimator
- Title(参考訳): Contrastive Divergenceによる参照最適化: Reward Modelは秘密裏にNLL推定子である
- Authors: Zhuotong Chen, Fang Liu, Xuan Zhu, Yanjun Qi, Mohammad Ghavamzadeh,
- Abstract要約: 本稿では,非推奨の完了を効果的にサンプリングするための理論的ガイダンスを提供する新しいPOフレームワークを開発する。
次に、サンプリング戦略としてコントラスト分散(CD)を選択し、新しいMC-POアルゴリズムを提案する。
OnMC-POは既存のSOTAベースラインより優れており、OnMC-POはさらなる改善をもたらす。
- 参考スコア(独自算出の注目度): 32.05337749590184
- License:
- Abstract: Existing studies on preference optimization (PO) have centered on constructing pairwise preference data following simple heuristics, such as maximizing the margin between preferred and dispreferred completions based on human (or AI) ranked scores. However, none of these heuristics has a full theoretical justification. In this work, we develop a novel PO framework that provides theoretical guidance to effectively sample dispreferred completions. To achieve this, we formulate PO as minimizing the negative log-likelihood (NLL) of a probability model and propose to estimate its normalization constant via a sampling strategy. As we will demonstrate, these estimative samples can act as dispreferred completions in PO. We then select contrastive divergence (CD) as the sampling strategy, and propose a novel MC-PO algorithm that applies the Monte Carlo (MC) kernel from CD to sample hard negatives w.r.t. the parameterized reward model. Finally, we propose the OnMC-PO algorithm, an extension of MC-PO to the online setting. On popular alignment benchmarks, MC-PO outperforms existing SOTA baselines, and OnMC-PO leads to further improvement.
- Abstract(参考訳): 選好最適化(PO)に関する既存の研究は、人間の(またはAI)ランクスコアに基づいて、好ましくない完了と好ましくない完了のマージンを最大化するなど、単純なヒューリスティックな結果に従うペアワイズ選好データの構築に重点を置いている。
しかしながら、これらのヒューリスティックスはどれも完全に理論上の正当化を持っていない。
本研究では,非参照完了を効果的にサンプリングするための理論的ガイダンスを提供する新しいPOフレームワークを開発する。
これを実現するために、確率モデルの負の対数類似度(NLL)を最小化するPOを定式化し、サンプリング戦略により正規化定数を推定する。
ここで示すように、これらの推定サンプルはPO の非参照完備化として振る舞うことができる。
次に、サンプリング戦略としてコントラッシブ・ディペンジェンス(CD)を選択し、パラメータ化報酬モデルを用いて、CDからモンテカルロ(MC)カーネルをサンプリングする新しいMC-POアルゴリズムを提案する。
最後に,オンライン環境に対するMC-POの拡張であるOnMC-POアルゴリズムを提案する。
一般的なアライメントベンチマークでは、MC-POは既存のSOTAベースラインより優れており、OnMC-POはさらなる改善をもたらす。
関連論文リスト
- Federated Fine-Tuning of Large Language Models: Kahneman-Tversky vs. Direct Preference Optimization [49.88778604259453]
我々は,大言語モデル (LLM) をフェデレート学習 (FL) 設定で微調整する方法として,KTO (Kahneman-Tversky Optimization) を評価した。
オリジナルの(KTOO)と再配布された(KTOR)構成の両方において、KTOはすべてのベンチマークで一貫してDPOを上回っている。
これらの知見は、KTOをFLの堅牢でスケーラブルな微調整方法として確立し、プライバシー保護、分散化、異種環境への採用を動機付けている。
論文 参考訳(メタデータ) (2025-02-20T01:44:21Z) - Step-level Value Preference Optimization for Mathematical Reasoning [6.318873143509028]
SVPO(Step-level Value Preference Optimization)と呼ばれる新しいアルゴリズムを導入する。
提案手法は,領域内および領域外両方の数学的推論ベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-06-16T09:06:17Z) - Robust Preference Optimization through Reward Model Distillation [68.65844394615702]
言語モデル (LM) は、好みのアノテーションから派生した報酬関数を最大化する。
DPOは、報酬モデルや強化学習を適用することなく、優先データに直接ポリシーを訓練する一般的なオフラインアライメント手法である。
この現象を解析し, 生成対よりも真の嗜好分布のより良いプロキシを得るため, 蒸留を提案する。
論文 参考訳(メタデータ) (2024-05-29T17:39:48Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Soft Preference Optimization: Aligning Language Models to Expert Distributions [40.84391304598521]
SPOは、Large Language Models (LLMs)のような生成モデルと人間の好みを整合させる手法である。
SPOは、選好損失をモデル全体の出力分布全体にわたる正規化項と統合する。
本稿では,SPOの方法論,理論的基礎,および単純さ,計算効率,アライメント精度における比較優位性について紹介する。
論文 参考訳(メタデータ) (2024-04-30T19:48:55Z) - Benchmarking PtO and PnO Methods in the Predictive Combinatorial Optimization Regime [59.27851754647913]
予測最適化(英: Predictive optimization)は、エネルギーコストを意識したスケジューリングや広告予算配分など、多くの現実世界のアプリケーションの正確なモデリングである。
我々は,広告のための新しい産業データセットを含む8つの問題に対して,既存のPtO/PnOメソッド11をベンチマークするモジュラーフレームワークを開発した。
本研究は,8ベンチマーク中7ベンチマークにおいて,PnOアプローチがPtOよりも優れていることを示すが,PnOの設計選択に銀の弾丸は見つからない。
論文 参考訳(メタデータ) (2023-11-13T13:19:34Z) - Statistical Rejection Sampling Improves Preference Optimization [42.57245965632205]
提案手法は,リジェクションサンプリングを用いた最適ポリシーからのソース選好データに対する新しいアプローチを提案する。
また、嗜好モデルの観点から、SLiC(Sequence Likelihood)とDPO(Direct Preference Optimization)の両方で使用される損失関数を強化する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-13T01:07:25Z) - Estimate-Then-Optimize versus Integrated-Estimation-Optimization versus
Sample Average Approximation: A Stochastic Dominance Perspective [15.832111591654293]
モデルクラスが十分に特定され、十分なデータが存在する場合に、逆の振る舞いが現れることを示す。
また, 標準サンプル平均近似 (SAA) が, 後悔の点において, モデルクラスが適切に特定された場合に, 最悪の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2023-04-13T21:54:53Z) - Optimization of Annealed Importance Sampling Hyperparameters [77.34726150561087]
Annealed Importance Smpling (AIS) は、深層生成モデルの難易度を推定するために使われる一般的なアルゴリズムである。
本稿では、フレキシブルな中間分布を持つパラメータAISプロセスを提案し、サンプリングに少ないステップを使用するようにブリッジング分布を最適化する。
我々は, 最適化AISの性能評価を行い, 深部生成モデルの限界推定を行い, 他の推定値と比較した。
論文 参考訳(メタデータ) (2022-09-27T07:58:25Z) - Low-variance estimation in the Plackett-Luce model via quasi-Monte Carlo
sampling [58.14878401145309]
PLモデルにおいて,より標本効率の高い予測値を生成するための新しい手法を開発した。
Amazon MusicのリアルなレコメンデーションデータとYahooの学習からランクへの挑戦を理論的にも実証的にも使用しています。
論文 参考訳(メタデータ) (2022-05-12T11:15:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。