論文の概要: When Your AIs Deceive You: Challenges with Partial Observability of
Human Evaluators in Reward Learning
- arxiv url: http://arxiv.org/abs/2402.17747v2
- Date: Sun, 3 Mar 2024 02:06:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 23:26:48.543552
- Title: When Your AIs Deceive You: Challenges with Partial Observability of
Human Evaluators in Reward Learning
- Title(参考訳): AIがあなたを欺くとき:リワード学習における人間評価者の部分観察可能性への挑戦
- Authors: Leon Lang, Davis Foote, Stuart Russell, Anca Dragan, Erik Jenner,
Scott Emmons
- Abstract要約: 人間のフィードバックが部分的な観察にのみ基づいている場合、それは誤認や過度な修正をもたらす可能性があることを示す。
我々は,環境の部分的可観測性が学習された戻り関数のあいまいさにどのように変換するかを数学的に特徴づける。
- 参考スコア(独自算出の注目度): 17.526803642325294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Past analyses of reinforcement learning from human feedback (RLHF) assume
that the human fully observes the environment. What happens when human feedback
is based only on partial observations? We formally define two failure cases:
deception and overjustification. Modeling the human as Boltzmann-rational
w.r.t. a belief over trajectories, we prove conditions under which RLHF is
guaranteed to result in policies that deceptively inflate their performance,
overjustify their behavior to make an impression, or both. To help address
these issues, we mathematically characterize how partial observability of the
environment translates into (lack of) ambiguity in the learned return function.
In some cases, accounting for partial observability makes it theoretically
possible to recover the return function and thus the optimal policy, while in
other cases, there is irreducible ambiguity. We caution against blindly
applying RLHF in partially observable settings and propose research directions
to help tackle these challenges.
- Abstract(参考訳): 人間のフィードバック(RLHF)からの強化学習の過去の分析は、人間が環境を完全に観察していると仮定している。
人間のフィードバックが部分的な観察に基づく場合、どうなるか?
正式に2つの障害ケースを定義します。
人間をボルツマン・レーショナル・w.r.t.としてモデル化し、RLHFが保証される条件を証明し、その条件は、その性能を欺くか、その振る舞いを過度に調整して印象を与えるか、あるいは両方を与える。
これらの問題に対処するために,我々は,環境の部分的可観測性が学習戻り関数の曖昧性(曖昧さ)にどのように変換されるかを数学的に特徴付ける。
部分観測可能性の計算は、理論上は回帰関数と最適方針を回復することができるが、他の場合では既約な曖昧さが存在する。
我々は、部分的に観測可能な環境にRLHFを盲目的に適用しないことに注意し、これらの課題に対処するための研究指針を提案する。
関連論文リスト
- A Theoretical Framework for Partially Observed Reward-States in RLHF [39.41038579993645]
部分的に観察された報酬状態(PORRL)を用いた強化学習のモデル化
フィードバックは2種類あり、$-$ cardinal と dueling の2種類があります。
両方のフィードバック設定において、我々のモデルと保証が既存のモデルを一般化し拡張することを示します。
論文 参考訳(メタデータ) (2024-02-05T18:38:55Z) - Towards Understanding Sycophancy in Language Models [49.99654432561934]
人間のフィードバックを利用した微調整を施したモデルにおける梅毒の有病率について検討した。
5つの最先端のAIアシスタントが、4つの異なる自由形式のテキスト生成タスクで常に梅毒を発現していることを示す。
以上の結果から、サイコファンシーは最先端のAIアシスタントの一般的な行動である可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-20T14:46:48Z) - Understanding Robust Overfitting from the Feature Generalization Perspective [61.770805867606796]
逆行訓練(AT)は、逆行摂動を自然データに組み込むことで、堅牢なニューラルネットワークを構築する。
これはロバストオーバーフィッティング(RO)の問題に悩まされ、モデルのロバスト性を著しく損なう。
本稿では,新しい特徴一般化の観点からROを考察する。
論文 参考訳(メタデータ) (2023-10-01T07:57:03Z) - Missing Information, Unresponsive Authors, Experimental Flaws: The
Impossibility of Assessing the Reproducibility of Previous Human Evaluations
in NLP [84.08476873280644]
13%の論文は (i) 再生の障壁が十分に低く、 (ii) 再生のために考慮すべき十分な入手可能な情報を持っていた。
その結果,コーディネート・リサーチ・デザインを再現的アプローチから標準化的・再生産的アプローチに変更しなければならなかった。
論文 参考訳(メタデータ) (2023-05-02T17:46:12Z) - HOPE: Human-Centric Off-Policy Evaluation for E-Learning and Healthcare [15.57203496240758]
オフ政治評価は、人間中心環境における効果的な政策の誘導に不可欠である。
部分的可観測性とアグリゲート報酬を扱うための人中心型OPEを提案する。
我々のアプローチは、異なるポリシーのリターンを確実に予測し、最先端のベンチマークを上回っます。
論文 参考訳(メタデータ) (2023-02-18T02:33:30Z) - The Effect of Modeling Human Rationality Level on Learning Rewards from
Multiple Feedback Types [38.37216644899506]
フィードバックタイプ毎の実データに有理性係数を基礎付けることは、報奨学習に有意な影響を与えると論じる。
一つのフィードバックタイプから学習すると、人間の合理性を過度に見積もると、報酬の正確さと後悔に恐ろしい影響が生じることがわかりました。
論文 参考訳(メタデータ) (2022-08-23T02:19:10Z) - Empirical Estimates on Hand Manipulation are Recoverable: A Step Towards
Individualized and Explainable Robotic Support in Everyday Activities [80.37857025201036]
ロボットシステムの鍵となる課題は、他のエージェントの振る舞いを理解することである。
正しい推論の処理は、(衝突)因子が実験的に制御されない場合、特に困難である。
人に関する観察研究を行うために必要なツールをロボットに装備することを提案する。
論文 参考訳(メタデータ) (2022-01-27T22:15:56Z) - On the Interaction of Belief Bias and Explanations [4.211128681972148]
我々は,信念バイアスの概観,人的評価における役割,そしてNLP実践者の考え方について述べる。
本研究では,評価における信念バイアスを考慮に入れることの重要性を指摘しながら,このような制御を導入する際に,最高性能の手法に関する結論が変化することを示す。
論文 参考訳(メタデータ) (2021-06-29T12:49:42Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z) - Improving Factual Consistency Between a Response and Persona Facts [64.30785349238619]
応答生成のためのニューラルネットワークは、意味論的に妥当であるが、必ずしも話者のペルソナを記述する事実と矛盾しない応答を生成する。
我々は,これらのモデルを強化学習により微調整し,応答とペルソナ事実の一貫性と意味的妥当性を明確に把握する効率的な報酬関数を提案する。
論文 参考訳(メタデータ) (2020-04-30T18:08:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。