論文の概要: Pairwise Calibrated Rewards for Pluralistic Alignment
- arxiv url: http://arxiv.org/abs/2506.06298v1
- Date: Sat, 17 May 2025 18:38:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 03:13:19.033538
- Title: Pairwise Calibrated Rewards for Pluralistic Alignment
- Title(参考訳): Pairwise Calibrated Rewards for Pluralistic Alignment (特集:「多元的アライメント」)
- Authors: Daniel Halpern, Evi Micha, Ariel D. Procaccia, Itai Shapira,
- Abstract要約: 現在のアライメントパイプラインは、望ましい振る舞いという単一の普遍的な概念を前提としている。
複数の報酬関数にまたがる分布を通して、多様な人間の嗜好を反映することを提案する。
我々は,小さな外乱のないアンサンブルであっても,様々な好み分布を正確に表現できることを証明した。
- 参考スコア(独自算出の注目度): 32.82521299417802
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current alignment pipelines presume a single, universal notion of desirable behavior. However, human preferences often diverge across users, contexts, and cultures. As a result, disagreement collapses into the majority signal and minority perspectives are discounted. To address this, we propose reflecting diverse human preferences through a distribution over multiple reward functions, each inducing a distinct aligned policy. The distribution is learned directly from pairwise preference without annotator identifiers or predefined groups. Instead, annotator disagreements are treated as informative soft labels. Our central criterion is pairwise calibration: for every pair of candidate responses, the proportion of reward functions preferring one response matches the fraction of annotators with that preference. We prove that even a small outlier-free ensemble can accurately represent diverse preference distributions. Empirically, we introduce and validate a practical training heuristic to learn such ensembles, and demonstrate its effectiveness through improved calibration, implying a more faithful representation of pluralistic values.
- Abstract(参考訳): 現在のアライメントパイプラインは、望ましい振る舞いという単一の普遍的な概念を前提としている。
しかしながら、人間の好みはユーザー、コンテキスト、文化にまたがることが多い。
その結果、意見の不一致が多数派に崩壊し、少数派の見方が割引される。
そこで本研究では,複数の報酬関数にまたがる分布を通じて,多様な人間の嗜好を反映する手法を提案する。
分布はアノテータ識別子や事前定義されたグループなしでペアの選好から直接学習される。
代わりに、アノテータの不一致は情報的ソフトラベルとして扱われる。
私たちの中心的な基準はペアワイズキャリブレーション(ペアワイズキャリブレーション)であり、任意のペアの候補応答に対して、1つの応答を好む報酬関数の割合は、アノテータの比率とその好みと一致する。
我々は,小さな外乱のないアンサンブルであっても,様々な好み分布を正確に表現できることを証明した。
経験的に、このようなアンサンブルを学習するために実践的な訓練ヒューリスティックを導入し、その効果を校正し、多元的値のより忠実な表現を示唆する。
関連論文リスト
- Population-Proportional Preference Learning from Human Feedback: An Axiomatic Approach [6.578074497549894]
評価対象者の嗜好の真の人口分布に比例して、集合的な意見や政策を整合できる新しい嗜好学習フレームワークを開発する。
提案手法は, 対比較データから直接, 評価対象人口分布の可能な集合を推定する。
本研究では,コンドルチェット優勝者の選考により,人口分布表現を円滑にトレードオフするソフトマックス緩和法を提案する。
論文 参考訳(メタデータ) (2025-06-05T22:15:07Z) - Direct Alignment with Heterogeneous Preferences [11.693372619696683]
ユーザタイプ全体の平均報酬を用いて、不均一な嗜好と単一ポリシーとの整合性が最善であることを示す。
最小限の情報が優先的な改善をもたらすのに対して、各ユーザタイプからの完全なフィードバックは、最適なポリシを一貫した学習につながります。
論文 参考訳(メタデータ) (2025-02-22T18:46:33Z) - Not All Preference Pairs Are Created Equal: A Recipe for Annotation-Efficient Iterative Preference Learning [81.69044784288005]
反復的な選好学習には、オンラインの注釈付き選好ラベルが必要である。
コスト効率のよいアノテーションに対する応答対を選択するための戦略について検討する。
論文 参考訳(メタデータ) (2024-06-25T06:49:16Z) - Whose Preferences? Differences in Fairness Preferences and Their Impact on the Fairness of AI Utilizing Human Feedback [8.04095222893591]
我々は、人種、年齢、政治的スタンス、教育水準、LGBTQ+アノテーターのアイデンティティによって、公平さの選好に大きなギャップを見いだす。
また、テキストで言及された人口統計は、ユーザーがモデレーションにおいて個人の公平さをどう知覚するかに大きな影響を及ぼすことを示した。
論文 参考訳(メタデータ) (2024-06-09T19:42:25Z) - Provable Multi-Party Reinforcement Learning with Diverse Human Feedback [63.830731470186855]
RLHF(Reinforcement Learning with Human feedback)は、モデルと人間の好みを結びつける新しいパラダイムである。
一つの報酬関数を学習しても、複数の個人の好みを捉えバランスが取れないので、従来のRLHFアプローチが失敗する可能性があることを示す。
メタラーニングを取り入れて、複数の嗜好を学習し、異なる社会福祉機能を採用して、複数のパーティにまたがる嗜好を集約する。
論文 参考訳(メタデータ) (2024-03-08T03:05:11Z) - MaxMin-RLHF: Alignment with Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - Dealing with Disagreements: Looking Beyond the Majority Vote in
Subjective Annotations [6.546195629698355]
主観的タスクに対するマルチアノテータモデルの有効性について検討する。
このアプローチは、トレーニング前にラベルをアグリゲートするよりも、同じまたは良いパフォーマンスが得られることを示す。
提案手法は予測の不確かさを推定する手段も提供し,従来の手法よりもアノテーションの不一致との相関が良好であることを示す。
論文 参考訳(メタデータ) (2021-10-12T03:12:34Z) - Consensus-Guided Correspondence Denoising [67.35345850146393]
本稿では,地域間コンセンサス学習フレームワークと対応関係を異色化し,対応関係をロバストに識別する。
ローカル地域からグローバル地域への動的グラフから推定されるコンセンサススコアに基づいて,信頼度の高い候補を初期マッチングから蒸留する新しい「プルーニング」ブロックを導入した。
本手法は、堅牢なラインフィッティング、ワイドベースライン画像マッチング、画像ローカリゼーションベンチマークを顕著なマージンで上回る。
論文 参考訳(メタデータ) (2021-01-03T09:10:00Z) - SetRank: A Setwise Bayesian Approach for Collaborative Ranking from
Implicit Feedback [50.13745601531148]
提案手法は,提案システムにおける暗黙的フィードバックの特性に対応するために,協調的ランキング(SeetRank)のためのセッティングワイドベイズ的手法を提案する。
具体的には、SetRankは、新しい設定された選好比較の後方確率を最大化することを目的としている。
また、SetRankの理論解析により、余剰リスクの境界が$sqrtM/N$に比例できることを示す。
論文 参考訳(メタデータ) (2020-02-23T06:40:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。