論文の概要: Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2205.12401v1
- Date: Tue, 24 May 2022 23:22:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-26 13:41:54.359794
- Title: Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning
- Title(参考訳): 選好に基づく強化学習における報酬不確実性
- Authors: Xinran Liang, Katherine Shu, Kimin Lee, Pieter Abbeel
- Abstract要約: 好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
- 参考スコア(独自算出の注目度): 88.34958680436552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conveying complex objectives to reinforcement learning (RL) agents often
requires meticulous reward engineering. Preference-based RL methods are able to
learn a more flexible reward model based on human preferences by actively
incorporating human feedback, i.e. teacher's preferences between two clips of
behaviors. However, poor feedback-efficiency still remains a problem in current
preference-based RL algorithms, as tailored human feedback is very expensive.
To handle this issue, previous methods have mainly focused on improving query
selection and policy initialization. At the same time, recent exploration
methods have proven to be a recipe for improving sample-efficiency in RL. We
present an exploration method specifically for preference-based RL algorithms.
Our main idea is to design an intrinsic reward by measuring the novelty based
on learned reward. Specifically, we utilize disagreement across ensemble of
learned reward models. Our intuition is that disagreement in learned reward
model reflects uncertainty in tailored human feedback and could be useful for
exploration. Our experiments show that exploration bonus from uncertainty in
learned reward improves both feedback- and sample-efficiency of
preference-based RL algorithms on complex robot manipulation tasks from
MetaWorld benchmarks, compared with other existing exploration methods that
measure the novelty of state visitation.
- Abstract(参考訳): 複雑な目的を強化学習(RL)エージェントに展開するには、しばしば巧妙な報酬工学が必要である。
嗜好に基づくRL手法は、人間のフィードバックを積極的に取り入れることで、人間の嗜好に基づくより柔軟な報奨モデル、すなわち2つの行動クリップ間の教師の嗜好を学習することができる。
しかしながら、人間のフィードバックの調整は非常に高価であるため、現在の好みに基づくRLアルゴリズムでは、フィードバック効率の低さが依然として問題となっている。
この問題に対処するため、従来の方法はクエリの選択とポリシー初期化の改善に重点を置いてきた。
同時に、最近の探査手法は、RLの試料効率を改善するためのレシピであることが証明されている。
好みに基づくRLアルゴリズムを対象とした探索手法を提案する。
私たちの主なアイデアは、学習した報酬に基づいてノベルティを測定することで、本質的な報酬を設計することです。
具体的には,学習報酬モデル間の不一致を利用した。
私たちの直感は、学習報酬モデルにおける不一致は、調整された人間のフィードバックの不確実性を反映し、探索に有用であるということです。
実験の結果,学習報酬における不確実性からの探索ボーナスは,メタワールドベンチマークによる複雑なロボット操作タスクに対する選好ベースのrlアルゴリズムのフィードバックとサンプル効率の両方を改善できることがわかった。
関連論文リスト
- Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - Data Driven Reward Initialization for Preference based Reinforcement
Learning [20.13307800821161]
選好に基づく強化学習(PbRL)法は、ループ内の人間からの2進フィードバック(HiL)をクエリされた軌道対上で利用し、報酬モデルを学ぶ。
実験のランダムな種に敏感な報酬モデルにおける高い変動性の問題について検討する。
論文 参考訳(メタデータ) (2023-02-17T07:07:07Z) - Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z) - B-Pref: Benchmarking Preference-Based Reinforcement Learning [84.41494283081326]
我々は、好みベースのRL用に特別に設計されたベンチマークであるB-Prefを紹介する。
このようなベンチマークにおける重要な課題は、候補アルゴリズムをすばやく評価する機能を提供することだ。
B-Prefは、幅広い不合理性を持つ教師をシミュレートすることでこれを緩和する。
論文 参考訳(メタデータ) (2021-11-04T17:32:06Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Information Directed Reward Learning for Reinforcement Learning [64.33774245655401]
我々は、標準rlアルゴリズムが可能な限り少数の専門家クエリで高い期待値を達成することができる報酬関数のモデルを学ぶ。
特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。
我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
論文 参考訳(メタデータ) (2021-02-24T18:46:42Z) - Self-Imitation Advantage Learning [43.8107780378031]
自己模倣学習は、期待以上のリターンのアクションを奨励する強化学習方法です。
本稿では,ベルマン最適性演算子を改変したオフポリシーRLの自己模倣学習の新たな一般化を提案する。
論文 参考訳(メタデータ) (2020-12-22T13:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。