論文の概要: Population-Proportional Preference Learning from Human Feedback: An Axiomatic Approach
- arxiv url: http://arxiv.org/abs/2506.05619v1
- Date: Thu, 05 Jun 2025 22:15:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.254076
- Title: Population-Proportional Preference Learning from Human Feedback: An Axiomatic Approach
- Title(参考訳): 人からのフィードバックによる集団的嗜好学習 : 軸論的アプローチ
- Authors: Kihyun Kim, Jiawei Zhang, Asuman Ozdaglar, Pablo A. Parrilo,
- Abstract要約: 評価対象者の嗜好の真の人口分布に比例して、集合的な意見や政策を整合できる新しい嗜好学習フレームワークを開発する。
提案手法は, 対比較データから直接, 評価対象人口分布の可能な集合を推定する。
本研究では,コンドルチェット優勝者の選考により,人口分布表現を円滑にトレードオフするソフトマックス緩和法を提案する。
- 参考スコア(独自算出の注目度): 6.578074497549894
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Conventional preference learning methods often prioritize opinions held more widely when aggregating preferences from multiple evaluators. This may result in policies that are biased in favor of some types of opinions or groups. The objective of this paper is to develop a novel preference learning framework capable of aligning aggregate opinions and policies proportionally with the true population distribution of evaluator preferences. Our approach infers the feasible set of evaluator population distributions directly from pairwise comparison data. Using these estimates, the algorithm constructs a policy that satisfies foundational axioms from social choice theory, namely monotonicity and Pareto efficiency, as well as our newly-introduced axioms of population-proportional representation and population-bounded robustness. We propose a soft-max relaxation method that smoothly trade-offs population-proportional representation with the selection of the Condorcet winner (which beats all other options in pairwise comparisons). Finally, we validate the effectiveness and scalability of our approach through experiments on both tabular recommendation tasks and large-scale language model alignment.
- Abstract(参考訳): 従来の選好学習手法は、複数の評価者からの選好を集約する場合に、より広く保持される意見を優先することが多い。
これは、ある種の意見やグループに偏った政策をもたらす可能性がある。
本研究の目的は,評価者選好の真の人口分布に比例して,集合的意見と政策を整合させる新しい選好学習フレームワークを開発することである。
提案手法は, 対比較データから直接, 評価対象人口分布の可能な集合を推定する。
これらの推定値を用いて,社会選択論,すなわち単調性とパレート効率から基礎公理を満足する政策を構築するとともに,人口分布表現と人口境界ロバスト性を新たに導入した。
本研究では,Condorcet の勝者を選ぶことで,人口分布表現を円滑にトレードオフするソフトマックス緩和法を提案する。
最後に,提案手法の有効性と拡張性について,表付きレコメンデーションタスクと大規模言語モデルアライメントの実験を通じて検証する。
関連論文リスト
- No Preference Left Behind: Group Distributional Preference Optimization [46.98320272443297]
Group Distributional Preference Optimization (GDPO) は、言語モデルをグループ内の好みの分布と整合させる新しいフレームワークである。
GDPOは、グループの信念分布の統計的推定を用いて言語モデルを校正する。
GDPOはトレーニング中にこのアライメントギャップを一貫して削減します。
論文 参考訳(メタデータ) (2024-12-28T23:30:47Z) - VPO: Leveraging the Number of Votes in Preference Optimization [5.200545764106177]
本稿では,ユーザの投票データを活用し,多様な主観的嗜好に適合する手法を提案する。
我々は,議論を呼んでいる世代対と明らかな世代対を区別するために,双方の投票数を組み込んだVoteベースのPreference Optimizationフレームワークを開発した。
論文 参考訳(メタデータ) (2024-10-30T10:39:34Z) - ComPO: Community Preferences for Language Model Personalization [122.54846260663922]
ComPOは、言語モデルにおける好みの最適化をパーソナライズする手法である。
ComPRedはRedditからコミュニティレベルの好みを持った質問応答データセットです。
論文 参考訳(メタデータ) (2024-10-21T14:02:40Z) - Pareto-Optimal Learning from Preferences with Hidden Context [17.590330740964266]
本稿では,多元的アライメントを実現するPOPLを提案する。
理論的および実証的な評価は,POPLが報酬関数とポリシーの学習において,基本的手法を超越していることを示している。
また,POPLは,グループフェアネスの特定の概念を最適化する手法の基盤としても機能することを示す。
論文 参考訳(メタデータ) (2024-06-21T18:57:38Z) - Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Be Aware of the Neighborhood Effect: Modeling Selection Bias under Interference [50.95521705711802]
従来の研究では、予測モデルの偏りのない学習を実現するために、選択バイアスに対処することに注力してきた。
本稿では、因果推論の観点から、近隣効果を干渉問題として公式に定式化する。
本稿では,近隣効果の存在下で選択バイアスに対処できる新しい理想的損失を提案する。
論文 参考訳(メタデータ) (2024-04-30T15:20:41Z) - MaxMin-RLHF: Alignment with Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。