論文の概要: Direct Preference Optimization with Rating Information: Practical Algorithms and Provable Gains
- arxiv url: http://arxiv.org/abs/2602.00603v1
- Date: Sat, 31 Jan 2026 08:38:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.281833
- Title: Direct Preference Optimization with Rating Information: Practical Algorithms and Provable Gains
- Title(参考訳): レーティング情報を用いた直接選好最適化:実践的アルゴリズムと予測ゲイン
- Authors: Luca Viano, Ruida Zhou, Yifan Sun, Mahdi Namazifar, Volkan Cevher, Shoham Sabach, Mohammad Ghavamzadeh,
- Abstract要約: 評価ギャップの形で追加情報を活用するアルゴリズムを設計する方法について検討する。
精度の高いレーティングギャップ情報が存在する場合,DPOよりも高速な統計的レートを実現するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 67.71020482405343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The class of direct preference optimization (DPO) algorithms has emerged as a promising approach for solving the alignment problem in foundation models. These algorithms work with very limited feedback in the form of pairwise preferences and fine-tune models to align with these preferences without explicitly learning a reward model. While the form of feedback used by these algorithms makes the data collection process easy and relatively more accurate, its ambiguity in terms of the quality of responses could have negative implications. For example, it is not clear if a decrease (increase) in the likelihood of preferred (dispreferred) responses during the execution of these algorithms could be interpreted as a positive or negative phenomenon. In this paper, we study how to design algorithms that can leverage additional information in the form of rating gap, which informs the learner how much the chosen response is better than the rejected one. We present new algorithms that can achieve faster statistical rates than DPO in presence of accurate rating gap information. Moreover, we theoretically prove and empirically show that the performance of our algorithms is robust to inaccuracy in rating gaps. Finally, we demonstrate the solid performance of our methods in comparison to a number of DPO-style algorithms across a wide range of LLMs and evaluation benchmarks.
- Abstract(参考訳): 直接選好最適化(DPO)アルゴリズムのクラスは、基礎モデルのアライメント問題を解決するための有望なアプローチとして登場した。
これらのアルゴリズムは、ペアワイズ選好と微調整モデルという形で非常に限られたフィードバックで動作し、報酬モデルを明確に学習することなく、これらの選好と整合する。
これらのアルゴリズムで使用されるフィードバックの形式は、データ収集プロセスを簡単かつ比較的正確にするが、応答の質の曖昧さは否定的な意味を持つ可能性がある。
例えば、これらのアルゴリズムの実行中に好ましくない(好ましくない)応答の可能性の低下(増加)が正あるいは負の現象として解釈できるかどうかは不明である。
本稿では,評価ギャップの形で追加情報を活用可能なアルゴリズムを設計する方法について検討する。
精度の高いレーティングギャップ情報が存在する場合,DPOよりも高速な統計的レートを実現するアルゴリズムを提案する。
さらに,アルゴリズムの性能が評価ギャップの不正確性に対して頑健であることを理論的に証明し,実証的に示す。
最後に,多種多様なLLMおよび評価ベンチマークにおけるDPOスタイルのアルゴリズムと比較して,本手法のソリッドパフォーマンスを実証する。
関連論文リスト
- Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
当社のアプローチは,DPOをかなりのマージンで継続的に向上させることを示す。
本手法は,嗜好データの有用性を最大化するだけでなく,未学習の問題も軽減し,データ拡張を超えてその広範な効果を実証する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Experience in Engineering Complex Systems: Active Preference Learning
with Multiple Outcomes and Certainty Levels [1.5257326975704795]
ブラックボックス最適化とは、目的関数と/または制約集合が未知、到達不能、あるいは存在しない問題を指す。
この特定の情報を活用するために、いわゆるActive Preference Learningと呼ばれるアルゴリズムが開発された。
我々のアプローチは、さらなる情報を効果的に活用できるような方法でアルゴリズムを拡張することを目的としている。
論文 参考訳(メタデータ) (2023-02-27T15:55:37Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Benchmarking Simulation-Based Inference [5.3898004059026325]
確率的モデリングの最近の進歩は、確率の数値的評価を必要としないシミュレーションに基づく推論アルゴリズムを多数もたらした。
推論タスクと適切なパフォーマンス指標を備えたベンチマークを,アルゴリズムの初期選択とともに提供する。
性能指標の選択は重要であり、最先端のアルゴリズムでさえ改善の余地があり、逐次推定によりサンプリング効率が向上することがわかった。
論文 参考訳(メタデータ) (2021-01-12T18:31:22Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。