論文の概要: Learning a Canonical Basis of Human Preferences from Binary Ratings
- arxiv url: http://arxiv.org/abs/2503.24150v1
- Date: Mon, 31 Mar 2025 14:35:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:37:15.965415
- Title: Learning a Canonical Basis of Human Preferences from Binary Ratings
- Title(参考訳): 二項評価からヒトの選好の正準基底を学習する
- Authors: Kailas Vodrahalli, Wei Wei, James Zou,
- Abstract要約: 本稿では、そのようなデータセットに符号化された嗜好を理解し、共通の人間の嗜好を特定することに焦点を移す。
21の選好カテゴリーの小さなサブセットは、個人間での選好の変化の89%を捉えていることがわかった。
この小さな嗜好のセットは、人間の嗜好の標準的基礎と類似しており、心理学や顔認識の研究における人間の変動を特徴づける確立された発見と類似している。
- 参考スコア(独自算出の注目度): 28.975782992900065
- License:
- Abstract: Recent advances in generative AI have been driven by alignment techniques such as reinforcement learning from human feedback (RLHF). RLHF and related techniques typically involve constructing a dataset of binary or ranked choice human preferences and subsequently fine-tuning models to align with these preferences. This paper shifts the focus to understanding the preferences encoded in such datasets and identifying common human preferences. We find that a small subset of 21 preference categories (selected from a set of nearly 5,000 distinct preferences) captures >89% of preference variation across individuals. This small set of preferences is analogous to a canonical basis of human preferences, similar to established findings that characterize human variation in psychology or facial recognition studies. Through both synthetic and empirical evaluations, we confirm that our low-rank, canonical set of human preferences generalizes across the entire dataset and within specific topics. We further demonstrate our preference basis' utility in model evaluation, where our preference categories offer deeper insights into model alignment, and in model training, where we show that fine-tuning on preference-defined subsets successfully aligns the model accordingly.
- Abstract(参考訳): 生成AIの最近の進歩は、人間のフィードバックからの強化学習(RLHF)のようなアライメント技術によって推進されている。
RLHFと関連する技術は、通常、バイナリまたはランク付けされた人間の選好のデータセットを構築し、その後、これらの選好に合わせて微調整モデルを構築する。
本稿では、そのようなデータセットに符号化された嗜好を理解し、共通の人間の嗜好を特定することに焦点を移す。
21の選好カテゴリーの小さなサブセット(約5000の異なる選好から選ばれる)が、個人間での選好の変化の89%を捉えていることがわかった。
この小さな嗜好のセットは、人間の嗜好の標準的基礎と類似しており、心理学や顔認識の研究における人間の変動を特徴づける確立された発見と類似している。
人工的および経験的評価を通じて、我々の低ランクで標準的な人間の嗜好セットがデータセット全体および特定のトピック内で一般化されることを確認する。
さらに、モデル評価における嗜好ベースの有用性を実証し、モデルアライメントに関するより深い洞察を提供するとともに、モデルトレーニングにおいて、嗜好定義サブセットの微調整がモデルに適合することを示す。
関連論文リスト
- Influencing Humans to Conform to Preference Models for RLHF [41.929409024817936]
選好モデルでは、人間の報酬関数の近似が貧弱なことを学習するリスクがある。
我々は,人間の嗜好表現に影響を及ぼすかどうかを3つの人間の研究により評価し,好む嗜好モデルにより密接に適合させる。
論文 参考訳(メタデータ) (2025-01-11T03:12:53Z) - Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback [87.37721254914476]
アノテーションの品質向上のために,人間とLMの入力を組み合わせたルーティングフレームワークを提案する。
我々は、人間とLMアノテーションの任意の組み合わせで報酬モデルの性能を予測するために、性能予測モデルを訓練する。
選択したハイブリッド混合物は,一方のみ使用した場合と比較して,報奨モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2024-10-24T20:04:15Z) - ComPO: Community Preferences for Language Model Personalization [122.54846260663922]
ComPOは、言語モデルにおける好みの最適化をパーソナライズする手法である。
ComPRedはRedditからコミュニティレベルの好みを持った質問応答データセットです。
論文 参考訳(メタデータ) (2024-10-21T14:02:40Z) - LRHP: Learning Representations for Human Preferences via Preference Pairs [45.056558199304554]
本研究では、よりリッチで構造化された人間の嗜好表現を構築することを目的とした嗜好表現学習タスクを提案する。
選好データ選択と選好マージン予測という2つの下流タスクにおける選好表現の有用性を検証する。
論文 参考訳(メタデータ) (2024-10-06T14:48:28Z) - Beyond Bradley-Terry Models: A General Preference Model for Language Model Alignment [51.14207112118503]
我々は、優先順位を効率的に捉えるために、応答を潜在空間に埋め込むアプローチである選好埋め込みを導入する。
また、人間からのフィードバックから報酬に基づく強化学習を一般化する嗜好スコアに基づく一般選好最適化(GPO)を提案する。
提案手法は,基礎モデルの微妙な人的価値との整合性を高めることができる。
論文 参考訳(メタデータ) (2024-10-03T04:22:55Z) - RLHF from Heterogeneous Feedback via Personalization and Preference Aggregation [24.374185140811115]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムを人間の価値と整合させる効果的な手法である。
本稿では、人間の嗜好に固有の異質性や、フィードバックの提供における潜在的な戦略的行動から、この問題に対処することに焦点を当てる。
本研究では, 個人化に基づく手法と集約に基づく手法の2つの枠組みを提案する。
論文 参考訳(メタデータ) (2024-04-30T23:57:23Z) - MaxMin-RLHF: Alignment with Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - Models of human preference for learning reward functions [80.39289349661364]
そこで我々は,一対の軌跡区間間の人為的嗜好から報酬関数を学習する。
この仮定に欠陥があることに気付き、各セグメントの後悔が示すように、人間の嗜好をモデル化することを提案する。
提案した後悔の選好モデルは、実際の人間の選好をより良く予測し、また、これらの選好から報酬関数を学習し、より人道的な政策へと導く。
論文 参考訳(メタデータ) (2022-06-05T17:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。