Fugu-MT 論文翻訳(概要): Population-Proportional Preference Learning from Human Feedback: An Axiomatic Approach

論文の概要: Population-Proportional Preference Learning from Human Feedback: An Axiomatic Approach

arxiv url: http://arxiv.org/abs/2506.05619v1
Date: Thu, 05 Jun 2025 22:15:07 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-09 17:28:43.254076
Title: Population-Proportional Preference Learning from Human Feedback: An Axiomatic Approach
Title（参考訳）: 人からのフィードバックによる集団的嗜好学習 : 軸論的アプローチ
Authors: Kihyun Kim, Jiawei Zhang, Asuman Ozdaglar, Pablo A. Parrilo,
Abstract要約: 評価対象者の嗜好の真の人口分布に比例して、集合的な意見や政策を整合できる新しい嗜好学習フレームワークを開発する。提案手法は, 対比較データから直接, 評価対象人口分布の可能な集合を推定する。本研究では,コンドルチェット優勝者の選考により,人口分布表現を円滑にトレードオフするソフトマックス緩和法を提案する。
参考スコア（独自算出の注目度）: 6.578074497549894
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Conventional preference learning methods often prioritize opinions held more widely when aggregating preferences from multiple evaluators. This may result in policies that are biased in favor of some types of opinions or groups. The objective of this paper is to develop a novel preference learning framework capable of aligning aggregate opinions and policies proportionally with the true population distribution of evaluator preferences. Our approach infers the feasible set of evaluator population distributions directly from pairwise comparison data. Using these estimates, the algorithm constructs a policy that satisfies foundational axioms from social choice theory, namely monotonicity and Pareto efficiency, as well as our newly-introduced axioms of population-proportional representation and population-bounded robustness. We propose a soft-max relaxation method that smoothly trade-offs population-proportional representation with the selection of the Condorcet winner (which beats all other options in pairwise comparisons). Finally, we validate the effectiveness and scalability of our approach through experiments on both tabular recommendation tasks and large-scale language model alignment.
Abstract（参考訳）: 従来の選好学習手法は、複数の評価者からの選好を集約する場合に、より広く保持される意見を優先することが多い。これは、ある種の意見やグループに偏った政策をもたらす可能性がある。本研究の目的は,評価者選好の真の人口分布に比例して,集合的意見と政策を整合させる新しい選好学習フレームワークを開発することである。提案手法は, 対比較データから直接, 評価対象人口分布の可能な集合を推定する。これらの推定値を用いて,社会選択論,すなわち単調性とパレート効率から基礎公理を満足する政策を構築するとともに,人口分布表現と人口境界ロバスト性を新たに導入した。本研究では,Condorcet の勝者を選ぶことで,人口分布表現を円滑にトレードオフするソフトマックス緩和法を提案する。最後に,提案手法の有効性と拡張性について,表付きレコメンデーションタスクと大規模言語モデルアライメントの実験を通じて検証する。

関連論文リスト

PB$^2$: Preference Space Exploration via Population-Based Methods in Preference-Based Reinforcement Learning [2.0373030742807545]
我々は、この選好探索問題を人口ベース手法を用いて同定し、解決する。多様なエージェントの個体数を維持することで、より包括的な選好環境の探索が可能になることを実証する。この多様性は、明らかに区別可能な振る舞いを持つ嗜好クエリを生成することにより、報酬モデル学習を改善する。
論文参考訳（メタデータ） (2025-06-16T17:51:33Z)
Alternates, Assemble! Selecting Optimal Alternates for Citizens' Assemblies [1.5624421399300306]
自由主義民主主義は市民集会を中心にランダムに選ばれた人々が政策問題について議論する代替選択のための最適化フレームワークを提案する。提案手法は,過去のデータを用いて降雨確率を推定し,予測された誤表現を最小限に抑えるために代替品を選択する。実世界のデータを用いた経験的評価は,現状と比べ,代用を減らしながら表現性を著しく向上することを示した。
論文参考訳（メタデータ） (2025-06-02T17:48:33Z)
No Preference Left Behind: Group Distributional Preference Optimization [46.98320272443297]
Group Distributional Preference Optimization (GDPO) は、言語モデルをグループ内の好みの分布と整合させる新しいフレームワークである。 GDPOは、グループの信念分布の統計的推定を用いて言語モデルを校正する。 GDPOはトレーニング中にこのアライメントギャップを一貫して削減します。
論文参考訳（メタデータ） (2024-12-28T23:30:47Z)
VPO: Leveraging the Number of Votes in Preference Optimization [5.200545764106177]
本稿では,ユーザの投票データを活用し,多様な主観的嗜好に適合する手法を提案する。我々は,議論を呼んでいる世代対と明らかな世代対を区別するために,双方の投票数を組み込んだVoteベースのPreference Optimizationフレームワークを開発した。
論文参考訳（メタデータ） (2024-10-30T10:39:34Z)
ComPO: Community Preferences for Language Model Personalization [122.54846260663922]
ComPOは、言語モデルにおける好みの最適化をパーソナライズする手法である。 ComPRedはRedditからコミュニティレベルの好みを持った質問応答データセットです。
論文参考訳（メタデータ） (2024-10-21T14:02:40Z)
Pareto-Optimal Learning from Preferences with Hidden Context [17.590330740964266]
本稿では,多元的アライメントを実現するPOPLを提案する。理論的および実証的な評価は,POPLが報酬関数とポリシーの学習において,基本的手法を超越していることを示している。また,POPLは,グループフェアネスの特定の概念を最適化する手法の基盤としても機能することを示す。
論文参考訳（メタデータ） (2024-06-21T18:57:38Z)
Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。学習シナリオにおける同値性に基づく単一のフレームワークを提案する。我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文参考訳（メタデータ） (2024-05-09T12:52:22Z)
Be Aware of the Neighborhood Effect: Modeling Selection Bias under Interference [50.95521705711802]
従来の研究では、予測モデルの偏りのない学習を実現するために、選択バイアスに対処することに注力してきた。本稿では、因果推論の観点から、近隣効果を干渉問題として公式に定式化する。本稿では,近隣効果の存在下で選択バイアスに対処できる新しい理想的損失を提案する。
論文参考訳（メタデータ） (2024-04-30T15:20:41Z)
MaxMin-RLHF: Alignment with Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文参考訳（メタデータ） (2024-02-14T03:56:27Z)
Provable Benefits of Policy Learning from Human Preferences in Contextual Bandit Problems [82.92678837778358]
嗜好に基づく手法は、InstructGPTのような経験的応用でかなりの成功を収めている。フィードバックモデリングにおける人間のバイアスと不確実性がこれらのアプローチの理論的保証にどのように影響するかを示す。
論文参考訳（メタデータ） (2023-07-24T17:50:24Z)
Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文参考訳（メタデータ） (2021-05-11T03:38:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。