論文の概要: A Descriptive and Normative Theory of Human Beliefs in RLHF
- arxiv url: http://arxiv.org/abs/2506.01692v1
- Date: Mon, 02 Jun 2025 13:52:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.473306
- Title: A Descriptive and Normative Theory of Human Beliefs in RLHF
- Title(参考訳): RLHFにおける人間信念の記述的・規範的理論
- Authors: Sylee Dandekar, Shripad Deshmukh, Frank Chiu, W. Bradley Knox, Scott Niekum,
- Abstract要約: 我々は,訓練対象者の能力に対する人間の信念も,嗜好生成において重要な役割を担っていることを示唆する。
人工的な実験を通して、人間の嗜好ラベル付け者がエージェントの最適性を仮定することがしばしば最適であることを示す。
- 参考スコア(独自算出の注目度): 12.627454162208846
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human preferences in RLHF are typically modeled as a function of the human's reward function or corresponding optimal state-action values. In this work, we propose that human beliefs about the capabilities of the agent being trained also play a key role in preference generation. We examine two questions related to this hypothesis, one descriptive and one normative, respectively: Do human labelers' beliefs about agent capabilities affect the preferences that they provide? And what is the ideal set of beliefs about an agent -- and resulting preferences -- for humans to have? We propose a new preference model that incorporates human beliefs and provide a normative theory that bounds the error on the final learned policy based on the \textit{mismatch} between the human's beliefs and an idealized set of beliefs. We then confirm via a human study that beliefs about agent capabilities do, in fact, significantly affect preferences and can be influenced through simple interventions. Additionally, we empirically show through synthetic experiments that it is often suboptimal for human preference labelers to assume agent optimality. Collectively, these results theoretically and empirically demonstrate how reducing the mismatch between human beliefs and agent capabilities can lead to more performant RLHF and point toward new best practices for RLHF practitioners.
- Abstract(参考訳): RLHFにおける人間の嗜好は、典型的には人間の報酬関数または対応する最適な状態-作用値の関数としてモデル化される。
本研究では,訓練対象者の能力に対する人間的信念が,嗜好生成において重要な役割を担っていることを提案する。
エージェント能力に関する人間ラベルの信念は、それらが提供する嗜好に影響を及ぼすか?
そして、エージェント、そして結果として生じる嗜好に対する信念の理想的なセットは、人間が持つべきものは何ですか?
本稿では,人間の信念を取り入れた新たな嗜好モデルを提案し,人間の信念と理想化された信念の集合との‘textit{mismatch’に基づく最終学習方針の誤りを限定する規範的理論を提案する。
そして、人間による研究を通して、エージェント能力に関する信念が、実際には、好みに大きく影響を与え、簡単な介入によって影響を受け得ることを確認します。
さらに, 人工的な実験を通して, エージェントの最適性を仮定することがヒトの嗜好ラベルに最適であることを示す。
これらの結果は理論的・実証的に、人間の信念とエージェント能力のミスマッチを減らすことで、より優れたRLHFが実現され、RLHF実践者にとって新たなベストプラクティスがもたらされることを示す。
関連論文リスト
- Belief Attribution as Mental Explanation: The Role of Accuracy, Informativity, and Causality [42.943294683967046]
我々は、人々が観察する行動によい説明である信念を属性にすることを好んでいるという仮説を考察する。
本研究では,エージェントの信念に関する(自然言語)文の説明的強度を定量化する計算モデルを開発する。
このモデルを用いて,信念を他のエージェントに選択的に属性づけする方法について,各要因の役割について検討した。
論文 参考訳(メタデータ) (2025-05-26T00:21:38Z) - Influencing Humans to Conform to Preference Models for RLHF [41.929409024817936]
選好モデルでは、人間の報酬関数の近似が貧弱なことを学習するリスクがある。
我々は,人間の嗜好表現に影響を及ぼすかどうかを3つの人間の研究により評価し,好む嗜好モデルにより密接に適合させる。
論文 参考訳(メタデータ) (2025-01-11T03:12:53Z) - RLHF from Heterogeneous Feedback via Personalization and Preference Aggregation [24.374185140811115]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムを人間の価値と整合させる効果的な手法である。
本稿では、人間の嗜好に固有の異質性や、フィードバックの提供における潜在的な戦略的行動から、この問題に対処することに焦点を当てる。
本研究では, 個人化に基づく手法と集約に基づく手法の2つの枠組みを提案する。
論文 参考訳(メタデータ) (2024-04-30T23:57:23Z) - Provable Multi-Party Reinforcement Learning with Diverse Human Feedback [63.830731470186855]
RLHF(Reinforcement Learning with Human feedback)は、モデルと人間の好みを結びつける新しいパラダイムである。
一つの報酬関数を学習しても、複数の個人の好みを捉えバランスが取れないので、従来のRLHFアプローチが失敗する可能性があることを示す。
メタラーニングを取り入れて、複数の嗜好を学習し、異なる社会福祉機能を採用して、複数のパーティにまたがる嗜好を集約する。
論文 参考訳(メタデータ) (2024-03-08T03:05:11Z) - MaxMin-RLHF: Alignment with Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - Aligning Large Language Models with Human Preferences through Representation Engineering [41.81020951061438]
表現工学(RepE)の新たな分野から着想を得た本研究は,LLM内の活動パターンに埋め込まれた高レベルの人間の嗜好の関連表現を特定することを目的としている。
この新しいアプローチは、人間フィードバックからの表現アライメント(Representation Alignment from Human Feedback、RAHF)と呼ばれ、効果的で、計算的に効率的で、実装が容易であることが証明されている。
論文 参考訳(メタデータ) (2023-12-26T11:01:36Z) - Towards Understanding Sycophancy in Language Models [49.352840825419236]
人間のフィードバックを利用した微調整を施したモデルにおける梅毒の有病率について検討した。
5つの最先端のAIアシスタントが、4つの異なる自由形式のテキスト生成タスクで常に梅毒を発現していることを示す。
以上の結果から、サイコファンシーは最先端のAIアシスタントの一般的な行動である可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-20T14:46:48Z) - AlignDiff: Aligning Diverse Human Preferences via Behavior-Customisable
Diffusion Model [69.12623428463573]
AlignDiffは、人間の好みを定量化し、抽象性をカバーし、拡散計画をガイドする新しいフレームワークである。
ユーザがカスタマイズした動作と正確に一致し、効率的に切り替えることができます。
選好マッチング,スイッチング,カバーにおいて,他のベースラインに比べて優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-03T13:53:08Z) - Provable Benefits of Policy Learning from Human Preferences in
Contextual Bandit Problems [82.92678837778358]
嗜好に基づく手法は、InstructGPTのような経験的応用でかなりの成功を収めている。
フィードバックモデリングにおける人間のバイアスと不確実性がこれらのアプローチの理論的保証にどのように影響するかを示す。
論文 参考訳(メタデータ) (2023-07-24T17:50:24Z) - Models of human preference for learning reward functions [80.39289349661364]
そこで我々は,一対の軌跡区間間の人為的嗜好から報酬関数を学習する。
この仮定に欠陥があることに気付き、各セグメントの後悔が示すように、人間の嗜好をモデル化することを提案する。
提案した後悔の選好モデルは、実際の人間の選好をより良く予測し、また、これらの選好から報酬関数を学習し、より人道的な政策へと導く。
論文 参考訳(メタデータ) (2022-06-05T17:58:02Z) - Adaptive Agent Architecture for Real-time Human-Agent Teaming [3.284216428330814]
エージェントは人間の意図を推論し、警察を円滑な調整に適応させることが重要である。
ほとんどの文献は、学習された人間のモデルを参照するエージェントを構築している。
二者協調ゲームにおける人間モデルフリー設定における適応エージェントアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-03-07T20:08:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。