論文の概要: When Your AI Deceives You: Challenges with Partial Observability of
Human Evaluators in Reward Learning
- arxiv url: http://arxiv.org/abs/2402.17747v1
- Date: Tue, 27 Feb 2024 18:32:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 15:08:08.404023
- Title: When Your AI Deceives You: Challenges with Partial Observability of
Human Evaluators in Reward Learning
- Title(参考訳): AIがあなたを欺くとき:リワード学習における人間評価者の部分的可観測性への挑戦
- Authors: Leon Lang, Davis Foote, Stuart Russell, Anca Dragan, Erik Jenner,
Scott Emmons
- Abstract要約: 人間のフィードバックが部分的な観察にのみ基づいている場合、それは誤認や過度な修正をもたらす可能性があることを示す。
我々は,環境の部分的可観測性が学習された戻り関数のあいまいさにどのように変換するかを数学的に特徴づける。
- 参考スコア(独自算出の注目度): 17.526803642325294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Past analyses of reinforcement learning from human feedback (RLHF) assume
that the human fully observes the environment. What happens when human feedback
is based only on partial observations? We formally define two failure cases:
deception and overjustification. Modeling the human as Boltzmann-rational
w.r.t. a belief over trajectories, we prove conditions under which RLHF is
guaranteed to result in policies that deceptively inflate their performance,
overjustify their behavior to make an impression, or both. To help address
these issues, we mathematically characterize how partial observability of the
environment translates into (lack of) ambiguity in the learned return function.
In some cases, accounting for partial observability makes it theoretically
possible to recover the return function and thus the optimal policy, while in
other cases, there is irreducible ambiguity. We caution against blindly
applying RLHF in partially observable settings and propose research directions
to help tackle these challenges.
- Abstract(参考訳): 人間のフィードバック(RLHF)からの強化学習の過去の分析は、人間が環境を完全に観察していると仮定している。
人間のフィードバックが部分的な観察に基づく場合、どうなるか?
正式に2つの障害ケースを定義します。
人間をボルツマン・レーショナル・w.r.t.としてモデル化し、RLHFが保証される条件を証明し、その条件は、その性能を欺くか、その振る舞いを過度に調整して印象を与えるか、あるいは両方を与える。
これらの問題に対処するために,我々は,環境の部分的可観測性が学習戻り関数の曖昧性(曖昧さ)にどのように変換されるかを数学的に特徴付ける。
部分観測可能性の計算は、理論上は回帰関数と最適方針を回復することができるが、他の場合では既約な曖昧さが存在する。
我々は、部分的に観測可能な環境にRLHFを盲目的に適用しないことに注意し、これらの課題に対処するための研究指針を提案する。
関連論文リスト
- What Hides behind Unfairness? Exploring Dynamics Fairness in Reinforcement Learning [52.51430732904994]
強化学習問題では、エージェントはリターンを最大化しながら長期的な公正性を考慮する必要がある。
近年の研究では様々なフェアネスの概念が提案されているが、RL問題における不公平性がどのように生じるかは定かではない。
我々は、環境力学から生じる不平等を明示的に捉える、ダイナミックスフェアネスという新しい概念を導入する。
論文 参考訳(メタデータ) (2024-04-16T22:47:59Z) - The Duet of Representations and How Explanations Exacerbate It [0.0]
アルゴリズムは、人間の知覚における特徴とラベルの関係の因果表現に影響を及ぼす。
説明は、人間の注意を対立する特徴に向け、他の関連する特徴から遠ざけることができる。
これは因果的過剰寄与を引き起こし、人間の情報処理に悪影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2024-02-13T11:18:27Z) - Fine-Grained Human Feedback Gives Better Rewards for Language Model
Training [108.25635150124539]
言語モデル(LM)は、しばしば偽、有毒、無関係な出力を生成するなど、望ましくないテキスト生成の振る舞いを示す。
本研究では,2つの点において微細な報酬関数から学習と学習を可能にするフレームワークであるFine-Grained RLHFを紹介する。
論文 参考訳(メタデータ) (2023-06-02T17:11:37Z) - Empirical Estimates on Hand Manipulation are Recoverable: A Step Towards
Individualized and Explainable Robotic Support in Everyday Activities [80.37857025201036]
ロボットシステムの鍵となる課題は、他のエージェントの振る舞いを理解することである。
正しい推論の処理は、(衝突)因子が実験的に制御されない場合、特に困難である。
人に関する観察研究を行うために必要なツールをロボットに装備することを提案する。
論文 参考訳(メタデータ) (2022-01-27T22:15:56Z) - Counterfactual Credit Assignment in Model-Free Reinforcement Learning [47.79277857377155]
強化学習における信用割当は、将来の報酬に対する行動の影響を測定する問題である。
我々は因果理論からモデルフリーなRL設定への反事実の概念を適応する。
我々は、将来の条件値関数をベースラインや批評家として使用するポリシーアルゴリズムのファミリーを定式化し、それらが明らかに低分散であることを示す。
論文 参考訳(メタデータ) (2020-11-18T18:41:44Z) - Learning "What-if" Explanations for Sequential Decision-Making [92.8311073739295]
実世界の意思決定の解釈可能なパラメータ化を実証行動に基づいて構築することが不可欠である。
そこで我々は,「何」の結果に対する嗜好の観点から,報酬関数をモデル化し,専門家による意思決定の学習的説明を提案する。
本研究は,行動の正確かつ解釈可能な記述を回復する上で,実効的逆強化学習手法であるバッチの有効性を強調した。
論文 参考訳(メタデータ) (2020-07-02T14:24:17Z) - Learning Behaviors with Uncertain Human Feedback [26.046639156418223]
本稿では,人間のフィードバックの不確実性を考慮した新しいフィードバックモデルを提案する。
人工シナリオと実世界のシナリオの双方において,提案手法の優れた性能を示す実験結果が得られた。
論文 参考訳(メタデータ) (2020-06-07T16:51:48Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。