論文の概要: Learning Behaviors with Uncertain Human Feedback
- arxiv url: http://arxiv.org/abs/2006.04201v1
- Date: Sun, 7 Jun 2020 16:51:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 07:31:03.882242
- Title: Learning Behaviors with Uncertain Human Feedback
- Title(参考訳): 不確実なフィードバックによる学習行動
- Authors: Xu He, Haipeng Chen and Bo An
- Abstract要約: 本稿では,人間のフィードバックの不確実性を考慮した新しいフィードバックモデルを提案する。
人工シナリオと実世界のシナリオの双方において,提案手法の優れた性能を示す実験結果が得られた。
- 参考スコア(独自算出の注目度): 26.046639156418223
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human feedback is widely used to train agents in many domains. However,
previous works rarely consider the uncertainty when humans provide feedback,
especially in cases that the optimal actions are not obvious to the trainers.
For example, the reward of a sub-optimal action can be stochastic and sometimes
exceeds that of the optimal action, which is common in games or real-world.
Trainers are likely to provide positive feedback to sub-optimal actions,
negative feedback to the optimal actions and even do not provide feedback in
some confusing situations. Existing works, which utilize the Expectation
Maximization (EM) algorithm and treat the feedback model as hidden parameters,
do not consider uncertainties in the learning environment and human feedback.
To address this challenge, we introduce a novel feedback model that considers
the uncertainty of human feedback. However, this incurs intractable calculus in
the EM algorithm. To this end, we propose a novel approximate EM algorithm, in
which we approximate the expectation step with the Gradient Descent method.
Experimental results in both synthetic scenarios and two real-world scenarios
with human participants demonstrate the superior performance of our proposed
approach.
- Abstract(参考訳): 人間のフィードバックは多くの領域でエージェントの訓練に広く使われている。
しかしながら、特に訓練者にとって最適な行動が明らかでない場合に、人間がフィードバックを提供する際の不確実性を考慮することは稀である。
例えば、サブ最適アクションの報酬は確率的であり、ゲームや現実世界で一般的である最適なアクションの報酬を超えることがある。
トレーナーは、準最適行動に肯定的なフィードバックを与え、最適な行動に否定的なフィードバックを与え、混乱した状況ではフィードバックを提供しない可能性が高い。
予測最大化(EM)アルゴリズムを用いて、フィードバックモデルを隠れパラメータとして扱う既存の研究は、学習環境と人間のフィードバックの不確実性を考慮していない。
この課題に対処するために,人間のフィードバックの不確実性を考慮した新しいフィードバックモデルを提案する。
しかし、これはEMアルゴリズムに難解な計算をもたらす。
そこで本研究では,予測ステップをグラディエントDescent法で近似する新しい近似EMアルゴリズムを提案する。
人工シナリオと実世界のシナリオの双方において,提案手法の優れた性能を示す実験結果が得られた。
関連論文リスト
- Preference Optimization as Probabilistic Inference [21.95277469346728]
本稿では,好ましくない例や好ましくない例を活用できる手法を提案する。
この柔軟性により、生成言語モデルをトレーニングするなど、さまざまな形式のフィードバックとモデルでシナリオに適用することが可能になります。
論文 参考訳(メタデータ) (2024-10-05T14:04:03Z) - Beyond Thumbs Up/Down: Untangling Challenges of Fine-Grained Feedback for Text-to-Image Generation [67.88747330066049]
きめ細かいフィードバックは、画像の品質と迅速な調整におけるニュアンスドの区別を捉えます。
粗いフィードバックに対する優位性を示すことは、自動ではないことを示す。
きめ細かいフィードバックを抽出し活用する上で重要な課題を特定します。
論文 参考訳(メタデータ) (2024-06-24T17:19:34Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - Provable Benefits of Policy Learning from Human Preferences in
Contextual Bandit Problems [82.92678837778358]
嗜好に基づく手法は、InstructGPTのような経験的応用でかなりの成功を収めている。
フィードバックモデリングにおける人間のバイアスと不確実性がこれらのアプローチの理論的保証にどのように影響するかを示す。
論文 参考訳(メタデータ) (2023-07-24T17:50:24Z) - Reinforcement Learning with Human Feedback: Learning Dynamic Choices via
Pessimism [91.52263068880484]
人間のフィードバックを用いたオフライン強化学習(RLHF)について検討する。
我々は、人間の選択によって引き起こされる一連の軌道から、人間の根底にある報酬とMDPの最適政策を学習することを目指している。
RLHFは、大きな状態空間だが人間のフィードバックが限られていること、人間の決定の有界な合理性、政治外の分散シフトなど、さまざまな理由から挑戦されている。
論文 参考訳(メタデータ) (2023-05-29T01:18:39Z) - Marginal MAP Estimation for Inverse RL under Occlusion with Observer
Noise [9.670578317106182]
騒音や部分的に観察可能な実演から課題に携わる専門家の行動選好を学習する問題を考える。
逆強化学習(IRL)の従来の手法は、欠落部分を省略するか、期待最大化の一部として推測するかのアプローチを取る。
本稿では, 軌道の閉塞部分の辺縁化を図り, 有名なベイズ最大位置推定法(MAP) IRL法を一般化する手法を提案する。
論文 参考訳(メタデータ) (2021-09-16T08:20:52Z) - Learning from an Exploring Demonstrator: Optimal Reward Estimation for
Bandits [36.37578212532926]
マルチアームバンディットインスタンスの報酬を推定する"逆バンディット"問題を導入する。
逆強化学習の関連問題に対する既存のアプローチは、最適なポリシーの実行を前提としている。
提案手法は,高信頼度アルゴリズムのクラス内でのデモンストレーションのための簡易かつ効率的な報酬推定手法を開発する。
論文 参考訳(メタデータ) (2021-06-28T17:37:49Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Deep Reinforcement Learning with Dynamic Optimism [29.806071693039655]
最適な楽観主義の度合いは、タスクや学習過程によって異なることが示される。
この知見にインスパイアされた我々は、楽観的価値学習と悲観的価値学習を切り替える、新しいディープアクター批判アルゴリズムを導入する。
論文 参考訳(メタデータ) (2021-02-07T10:28:09Z) - Reinforcement Learning with Trajectory Feedback [76.94405309609552]
本研究では、この仮定を緩和する第一歩を踏み出し、より弱い形のフィードバックを必要とする。
あらゆる行動の後に得られる報酬を観察する代わりに、エージェントが観察する全軌道の質、すなわち、この軌道上で得られるすべての報酬の総和を表すスコアのみを受け取ると仮定する。
我々は、未知の遷移モデルと未知の遷移モデルの両方に対して、未知の報酬の最小二乗推定に基づいて強化学習アルゴリズムをこの設定に拡張し、それらの後悔を分析してこれらのアルゴリズムの性能について検討する。
論文 参考訳(メタデータ) (2020-08-13T17:49:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。