論文の概要: Boosting Feedback Efficiency of Interactive Reinforcement Learning by
Adaptive Learning from Scores
- arxiv url: http://arxiv.org/abs/2307.05405v2
- Date: Sun, 6 Aug 2023 08:33:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 22:22:48.444915
- Title: Boosting Feedback Efficiency of Interactive Reinforcement Learning by
Adaptive Learning from Scores
- Title(参考訳): スコアからの適応学習による相互強化学習のフィードバック効率の向上
- Authors: Shukai Liu, Chenming Wu, Ying Li, Liangjun Zhang
- Abstract要約: 本稿では,対話型強化学習のフィードバック効率を向上させるために,対の選好の代わりに人間が提供するスコアを利用する新しい手法を提案する。
提案手法は,相互選好学習法と比較して,フィードバックを少なくしながら,スコアから適応学習することで,最適に近いポリシーを効率的に学習できることを示す。
- 参考スコア(独自算出の注目度): 11.702616722462139
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interactive reinforcement learning has shown promise in learning complex
robotic tasks. However, the process can be human-intensive due to the
requirement of a large amount of interactive feedback. This paper presents a
new method that uses scores provided by humans instead of pairwise preferences
to improve the feedback efficiency of interactive reinforcement learning. Our
key insight is that scores can yield significantly more data than pairwise
preferences. Specifically, we require a teacher to interactively score the full
trajectories of an agent to train a behavioral policy in a sparse reward
environment. To avoid unstable scores given by humans negatively impacting the
training process, we propose an adaptive learning scheme. This enables the
learning paradigm to be insensitive to imperfect or unreliable scores. We
extensively evaluate our method for robotic locomotion and manipulation tasks.
The results show that the proposed method can efficiently learn near-optimal
policies by adaptive learning from scores while requiring less feedback
compared to pairwise preference learning methods. The source codes are publicly
available at https://github.com/SSKKai/Interactive-Scoring-IRL.
- Abstract(参考訳): インタラクティブ強化学習は、複雑なロボットタスクの学習に有望である。
しかし、大量のインタラクティブなフィードバックを必要とするため、プロセスは人間中心になる可能性がある。
本稿では,対話型強化学習のフィードバック効率を向上させるために,対の選好の代わりに人間が提供するスコアを利用する新しい手法を提案する。
私たちの重要な洞察は、スコアはペアの好みよりもはるかに多くのデータが得られるということです。
具体的には,スパース報酬環境下での行動方針を訓練するためには,エージェントの全軌道を対話的に得点する必要がある。
学習過程に悪影響を及ぼす人間が与える不安定なスコアを避けるために,適応学習方式を提案する。
これにより、学習パラダイムは不完全なスコアや信頼できないスコアに敏感になる。
ロボットの移動と操作作業の手法を幅広く評価した。
提案手法は, 相互選好学習法と比較して, フィードバックを少なくしながら, スコアから適応学習することで, 最適に近い政策を効率的に学習できることを示す。
ソースコードはhttps://github.com/SSKKai/Interactive-Scoring-IRLで公開されている。
関連論文リスト
- RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Multi-trainer Interactive Reinforcement Learning System [7.3072544716528345]
複数のトレーナーを導入することにより,より効果的な対話型強化学習システムを提案する。
特に,トレーナーフィードバックアグリゲーション実験の結果,アグリゲーション法が最も正確であることがわかった。
最後に, MTIRLが評価モデルで訓練した政策が, レビューモデルなしでの政策よりも, 最適ポリシーに近いことを示すために, グリッドワールド実験を行った。
論文 参考訳(メタデータ) (2022-10-14T18:32:59Z) - Human Decision Makings on Curriculum Reinforcement Learning with
Difficulty Adjustment [52.07473934146584]
我々は,カリキュラム強化学習結果を,人的意思決定プロセスから学ぶことで,難しすぎず,難しすぎるような望ましいパフォーマンスレベルに導く。
本システムは非常に並列化可能であり,大規模強化学習アプリケーションの訓練が可能となる。
強化学習性能は、人間の所望の難易度と同期してうまく調整できることが示される。
論文 参考訳(メタデータ) (2022-08-04T23:53:51Z) - Sample Efficient Social Navigation Using Inverse Reinforcement Learning [11.764601181046498]
本稿では,人間の軌道観測から学習する逆強化学習に基づくアルゴリズムについて述べる。
私たちは、トレーニング時間とサンプルの複雑さを減らしながら、我々のアプローチがより良いパフォーマンスをもたらすことを示しています。
論文 参考訳(メタデータ) (2021-06-18T19:07:41Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Generative Inverse Deep Reinforcement Learning for Online Recommendation [62.09946317831129]
オンラインレコメンデーションのための新しい逆強化学習手法InvRecを提案する。
InvRecは、オンラインレコメンデーションのために、ユーザの行動から報酬関数を自動的に抽出する。
論文 参考訳(メタデータ) (2020-11-04T12:12:25Z) - Empowering Active Learning to Jointly Optimize System and User Demands [70.66168547821019]
我々は,アクティブラーニングシステムとユーザを協調的に(効率的に学習)するための,新しいアクティブラーニング手法を提案する。
本手法は,特定のユーザに対して,エクササイズの適切性を予測するために,学習を迅速かつ迅速に行う必要があるため,特に,この手法のメリットを生かした教育アプリケーションで研究する。
複数の学習戦略とユーザタイプを実際のユーザからのデータで評価し,代替手法がエンドユーザに適さない多くのエクササイズをもたらす場合,共同アプローチが両方の目標を満足できることを確認した。
論文 参考訳(メタデータ) (2020-05-09T16:02:52Z) - Let Me At Least Learn What You Really Like: Dealing With Noisy Humans
When Learning Preferences [0.76146285961466]
本稿では,予測出力値を用いて選好の学習を高速化する不確実性サンプリングの修正を提案する。
提案手法を不確実サンプリングベースラインと比較し,提案手法の各コンポーネントの有効性を検証するためのアブレーション試験を行った。
論文 参考訳(メタデータ) (2020-02-15T00:36:23Z) - On the interaction between supervision and self-play in emergent
communication [82.290338507106]
本研究は,2つのカテゴリの学習信号と,サンプル効率の向上を目標とする学習信号の関係について検討する。
人間のデータに基づく教師付き学習による初等訓練エージェントが,自己演奏が会話に優れていることが判明した。
論文 参考訳(メタデータ) (2020-02-04T02:35:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。