論文の概要: Influencing Humans to Conform to Preference Models for RLHF
- arxiv url: http://arxiv.org/abs/2501.06416v1
- Date: Sat, 11 Jan 2025 03:12:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:26:50.696238
- Title: Influencing Humans to Conform to Preference Models for RLHF
- Title(参考訳): RLHFの選好モデルに変換する人間への影響
- Authors: Stephane Hatgis-Kessell, W. Bradley Knox, Serena Booth, Scott Niekum, Peter Stone,
- Abstract要約: 選好モデルでは、人間の報酬関数の近似が貧弱なことを学習するリスクがある。
我々は,人間の嗜好表現に影響を及ぼすかどうかを3つの人間の研究により評価し,好む嗜好モデルにより密接に適合させる。
- 参考スコア(独自算出の注目度): 41.929409024817936
- License:
- Abstract: Designing a reinforcement learning from human feedback (RLHF) algorithm to approximate a human's unobservable reward function requires assuming, implicitly or explicitly, a model of human preferences. A preference model that poorly describes how humans generate preferences risks learning a poor approximation of the human's reward function. In this paper, we conduct three human studies to asses whether one can influence the expression of real human preferences to more closely conform to a desired preference model. Importantly, our approach does not seek to alter the human's unobserved reward function. Rather, we change how humans use this reward function to generate preferences, such that they better match whatever preference model is assumed by a particular RLHF algorithm. We introduce three interventions: showing humans the quantities that underlie a preference model, which is normally unobservable information derived from the reward function; training people to follow a specific preference model; and modifying the preference elicitation question. All intervention types show significant effects, providing practical tools to improve preference data quality and the resultant alignment of the learned reward functions. Overall we establish a novel research direction in model alignment: designing interfaces and training interventions to increase human conformance with the modeling assumptions of the algorithm that will learn from their input.
- Abstract(参考訳): 人間からのフィードバック(RLHF)アルゴリズムから強化学習を設計し、人間の観測不能な報酬関数を近似するには、人間の好みのモデルを想定し、暗黙的に、あるいは明示的に求める必要がある。
選好モデルでは、人間の報酬関数の近似が貧弱なことを学習するリスクがある。
本稿では,人間の嗜好表現に影響を及ぼし,希望する嗜好モデルにより忠実に適合できるかどうかを3つの人間研究により評価する。
重要なことは、我々のアプローチは人間の保存されていない報酬機能を変えようとはしない。
むしろ我々は、人間がこの報酬関数を使って好みを生成する方法を変え、特定のRLHFアルゴリズムによって仮定される好みモデルにマッチするようにした。
報酬関数から得られる観測不可能な情報である選好モデルを満たす量を人間に示すこと、特定の選好モデルに従うよう訓練すること、選好選択問題を修正すること、の3つの介入を紹介する。
全ての介入型は重要な効果を示し、嗜好データの品質と学習された報酬関数のアライメントを改善するための実用的なツールを提供する。
全体として、我々はモデルアライメントにおける新たな研究方向を確立する。インタフェースの設計とトレーニング介入により、入力から学習するアルゴリズムのモデリング仮定への人間の適合性を高める。
関連論文リスト
- LRHP: Learning Representations for Human Preferences via Preference Pairs [45.056558199304554]
本研究では、よりリッチで構造化された人間の嗜好表現を構築することを目的とした嗜好表現学習タスクを提案する。
選好データ選択と選好マージン予測という2つの下流タスクにおける選好表現の有用性を検証する。
論文 参考訳(メタデータ) (2024-10-06T14:48:28Z) - Personalizing Reinforcement Learning from Human Feedback with Variational Preference Learning [12.742158403867002]
ヒューマンフィードバックからの強化学習は、基礎モデルを人間の価値観や好みに合わせるための強力なパラダイムである。
現在のRLHF技術は、多様な集団における個人の嗜好の自然に生じる相違を説明できない。
マルチモーダルなRLHF手法のクラスを開発し,多元的アライメントの必要性に対処する。
論文 参考訳(メタデータ) (2024-08-19T15:18:30Z) - MaxMin-RLHF: Alignment with Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - AlignDiff: Aligning Diverse Human Preferences via Behavior-Customisable
Diffusion Model [69.12623428463573]
AlignDiffは、人間の好みを定量化し、抽象性をカバーし、拡散計画をガイドする新しいフレームワークである。
ユーザがカスタマイズした動作と正確に一致し、効率的に切り替えることができます。
選好マッチング,スイッチング,カバーにおいて,他のベースラインに比べて優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-03T13:53:08Z) - Models of human preference for learning reward functions [80.39289349661364]
そこで我々は,一対の軌跡区間間の人為的嗜好から報酬関数を学習する。
この仮定に欠陥があることに気付き、各セグメントの後悔が示すように、人間の嗜好をモデル化することを提案する。
提案した後悔の選好モデルは、実際の人間の選好をより良く予測し、また、これらの選好から報酬関数を学習し、より人道的な政策へと導く。
論文 参考訳(メタデータ) (2022-06-05T17:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。