論文の概要: A Descriptive and Normative Theory of Human Beliefs in RLHF
- arxiv url: http://arxiv.org/abs/2506.01692v1
- Date: Mon, 02 Jun 2025 13:52:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.473306
- Title: A Descriptive and Normative Theory of Human Beliefs in RLHF
- Title(参考訳): RLHFにおける人間信念の記述的・規範的理論
- Authors: Sylee Dandekar, Shripad Deshmukh, Frank Chiu, W. Bradley Knox, Scott Niekum,
- Abstract要約: 我々は,訓練対象者の能力に対する人間の信念も,嗜好生成において重要な役割を担っていることを示唆する。
人工的な実験を通して、人間の嗜好ラベル付け者がエージェントの最適性を仮定することがしばしば最適であることを示す。
- 参考スコア(独自算出の注目度): 12.627454162208846
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human preferences in RLHF are typically modeled as a function of the human's reward function or corresponding optimal state-action values. In this work, we propose that human beliefs about the capabilities of the agent being trained also play a key role in preference generation. We examine two questions related to this hypothesis, one descriptive and one normative, respectively: Do human labelers' beliefs about agent capabilities affect the preferences that they provide? And what is the ideal set of beliefs about an agent -- and resulting preferences -- for humans to have? We propose a new preference model that incorporates human beliefs and provide a normative theory that bounds the error on the final learned policy based on the \textit{mismatch} between the human's beliefs and an idealized set of beliefs. We then confirm via a human study that beliefs about agent capabilities do, in fact, significantly affect preferences and can be influenced through simple interventions. Additionally, we empirically show through synthetic experiments that it is often suboptimal for human preference labelers to assume agent optimality. Collectively, these results theoretically and empirically demonstrate how reducing the mismatch between human beliefs and agent capabilities can lead to more performant RLHF and point toward new best practices for RLHF practitioners.
- Abstract(参考訳): RLHFにおける人間の嗜好は、典型的には人間の報酬関数または対応する最適な状態-作用値の関数としてモデル化される。
本研究では,訓練対象者の能力に対する人間的信念が,嗜好生成において重要な役割を担っていることを提案する。
エージェント能力に関する人間ラベルの信念は、それらが提供する嗜好に影響を及ぼすか?
そして、エージェント、そして結果として生じる嗜好に対する信念の理想的なセットは、人間が持つべきものは何ですか?
本稿では,人間の信念を取り入れた新たな嗜好モデルを提案し,人間の信念と理想化された信念の集合との‘textit{mismatch’に基づく最終学習方針の誤りを限定する規範的理論を提案する。
そして、人間による研究を通して、エージェント能力に関する信念が、実際には、好みに大きく影響を与え、簡単な介入によって影響を受け得ることを確認します。
さらに, 人工的な実験を通して, エージェントの最適性を仮定することがヒトの嗜好ラベルに最適であることを示す。
これらの結果は理論的・実証的に、人間の信念とエージェント能力のミスマッチを減らすことで、より優れたRLHFが実現され、RLHF実践者にとって新たなベストプラクティスがもたらされることを示す。
関連論文リスト
- Belief Attribution as Mental Explanation: The Role of Accuracy, Informativity, and Causality [42.943294683967046]
我々は、人々が観察する行動によい説明である信念を属性にすることを好んでいるという仮説を考察する。
本研究では,エージェントの信念に関する(自然言語)文の説明的強度を定量化する計算モデルを開発する。
このモデルを用いて,信念を他のエージェントに選択的に属性づけする方法について,各要因の役割について検討した。
論文 参考訳(メタデータ) (2025-05-26T00:21:38Z) - Influencing Humans to Conform to Preference Models for RLHF [41.929409024817936]
選好モデルでは、人間の報酬関数の近似が貧弱なことを学習するリスクがある。
我々は,人間の嗜好表現に影響を及ぼすかどうかを3つの人間の研究により評価し,好む嗜好モデルにより密接に適合させる。
論文 参考訳(メタデータ) (2025-01-11T03:12:53Z) - Towards Understanding Sycophancy in Language Models [49.352840825419236]
人間のフィードバックを利用した微調整を施したモデルにおける梅毒の有病率について検討した。
5つの最先端のAIアシスタントが、4つの異なる自由形式のテキスト生成タスクで常に梅毒を発現していることを示す。
以上の結果から、サイコファンシーは最先端のAIアシスタントの一般的な行動である可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-20T14:46:48Z) - AlignDiff: Aligning Diverse Human Preferences via Behavior-Customisable
Diffusion Model [69.12623428463573]
AlignDiffは、人間の好みを定量化し、抽象性をカバーし、拡散計画をガイドする新しいフレームワークである。
ユーザがカスタマイズした動作と正確に一致し、効率的に切り替えることができます。
選好マッチング,スイッチング,カバーにおいて,他のベースラインに比べて優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-03T13:53:08Z) - Provable Benefits of Policy Learning from Human Preferences in
Contextual Bandit Problems [82.92678837778358]
嗜好に基づく手法は、InstructGPTのような経験的応用でかなりの成功を収めている。
フィードバックモデリングにおける人間のバイアスと不確実性がこれらのアプローチの理論的保証にどのように影響するかを示す。
論文 参考訳(メタデータ) (2023-07-24T17:50:24Z) - Adaptive Agent Architecture for Real-time Human-Agent Teaming [3.284216428330814]
エージェントは人間の意図を推論し、警察を円滑な調整に適応させることが重要である。
ほとんどの文献は、学習された人間のモデルを参照するエージェントを構築している。
二者協調ゲームにおける人間モデルフリー設定における適応エージェントアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-03-07T20:08:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。