論文の概要: Direct Preference Optimization with Unobserved Preference Heterogeneity: The Necessity of Ternary Preferences
- arxiv url: http://arxiv.org/abs/2510.15716v1
- Date: Fri, 17 Oct 2025 15:00:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.666647
- Title: Direct Preference Optimization with Unobserved Preference Heterogeneity: The Necessity of Ternary Preferences
- Title(参考訳): 観測不能な選好不均一性を用いた直接選好最適化:3次選好の必要性
- Authors: Keertana Chidambaram, Karthik Vinary Seetharaman, Vasilis Syrgkanis,
- Abstract要約: Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデルと人間の価値の整合の中心となっている。
最近の選択肢であるDPO(Direct Preference Optimization)は、好みを直接最適化することでパイプラインを単純化している。
生成モデルアライメントにおける多様なユーザに対する公平性とパーソナライズのための理論的かつアルゴリズム的なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 14.686788596611246
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) has become central to aligning large language models with human values, typically by first learning a reward model from preference data which is then used to update the model with reinforcement learning. Recent alternatives such as Direct Preference Optimization (DPO) simplify this pipeline by directly optimizing on preferences. However, both approaches often assume uniform annotator preferences and rely on binary comparisons, overlooking two key limitations: the diversity of human evaluators and the limitations of pairwise feedback. In this work, we address both these issues. First, we connect preference learning in RLHF with the econometrics literature and show that binary comparisons are insufficient for identifying latent user preferences from finite user data and infinite users, while (even incomplete) rankings over three or more responses ensure identifiability. Second, we introduce methods to incorporate heterogeneous preferences into alignment algorithms. We develop an Expectation-Maximization adaptation of DPO that discovers latent annotator types and trains a mixture of LLMs accordingly. Then we propose an aggregation algorithm using a min-max regret fairness criterion to produce a single generative policy with equitable performance guarantees. Together, these contributions establish a theoretical and algorithmic framework for fairness and personalization for diverse users in generative model alignment.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF) は、大規模言語モデルと人間の価値を整合させる中心となり、典型的には、優先データから報酬モデルを学び、強化学習でモデルを更新する。
最近の選択肢であるDPO(Direct Preference Optimization)は、好みを直接最適化することでパイプラインを単純化している。
しかしながら、どちらのアプローチも一様アノテータの好みを仮定し、二項比較に頼り、人間の評価者の多様性とペアのフィードバックの限界という2つの重要な制限を見越す。
本研究では,これら2つの課題に対処する。
まず、RLHFにおける選好学習と計量学の文献を結びつけ、有限ユーザデータと無限ユーザから潜在ユーザの選好を識別するにはバイナリ比較が不十分であることを示す。
次に,不均一な選好をアライメントアルゴリズムに組み込む手法を提案する。
我々はDPOの予測最大化適応を開発し、遅延アノテータ型を発見し、それに応じてLLMの混合を訓練する。
そこで本研究では,min-max regret Fairness criterion を用いたアグリゲーションアルゴリズムを提案する。
これらの貢献により、生成モデルアライメントにおける多様なユーザのための公平性とパーソナライズのための理論的かつアルゴリズム的な枠組みが確立される。
関連論文リスト
- Calibrated Multi-Preference Optimization for Aligning Diffusion Models [90.15024547673785]
Calibrated Preference Optimization (CaPO) は、テキスト・ツー・イメージ(T2I)拡散モデルを調整する新しい手法である。
CaPOは、人間の注釈のない複数の報酬モデルからの一般的な好みを取り入れている。
実験結果から, CaPOは従来法よりも常に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-04T18:59:23Z) - Ordinal Preference Optimization: Aligning Human Preferences via NDCG [28.745322441961438]
我々は、NDCGを異なる代理損失で近似することで、エンドツーエンドの選好最適化アルゴリズムを開発する。
OPOは、AlpacaEvalのような評価セットや一般的なベンチマークにおいて、既存のペアワイズおよびリストワイズアプローチよりも優れています。
論文 参考訳(メタデータ) (2024-10-06T03:49:28Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - Direct Preference Optimization With Unobserved Preference Heterogeneity [16.91835461818937]
本稿では,生成モデルと人間の嗜好を一致させる新しい手法を提案する。
そこで我々はDPOに対する期待最大化適応を提案し、アノテータの潜在選好型に基づくモデルの混合を生成する。
我々のアルゴリズムはDPOの単純さを生かし、多様な好みを調節する。
論文 参考訳(メタデータ) (2024-05-23T21:25:20Z) - RLHF from Heterogeneous Feedback via Personalization and Preference Aggregation [24.374185140811115]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムを人間の価値と整合させる効果的な手法である。
本稿では、人間の嗜好に固有の異質性や、フィードバックの提供における潜在的な戦略的行動から、この問題に対処することに焦点を当てる。
本研究では, 個人化に基づく手法と集約に基づく手法の2つの枠組みを提案する。
論文 参考訳(メタデータ) (2024-04-30T23:57:23Z) - Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
命令応答対に対して協調的に好みを抽出する新しい軸を提案する。
命令と応答ペアを併用することで、大きな言語モデルのアライメントを大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-03-31T02:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。