論文の概要: FRESH: Interactive Reward Shaping in High-Dimensional State Spaces using
Human Feedback
- arxiv url: http://arxiv.org/abs/2001.06781v1
- Date: Sun, 19 Jan 2020 06:07:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-08 10:12:23.791432
- Title: FRESH: Interactive Reward Shaping in High-Dimensional State Spaces using
Human Feedback
- Title(参考訳): ヒューマンフィードバックを用いた高次元状態空間におけるインタラクティブ報酬形成
- Authors: Baicen Xiao, Qifan Lu, Bhaskar Ramasubramanian, Andrew Clark, Linda
Bushnell, Radha Poovendran
- Abstract要約: 強化学習は、複雑な環境で目標を達成するための自律エージェントの訓練に成功している。
人間のプレイヤーは、強化学習アルゴリズムよりも、いくつかの環境でより高い報酬を得るのが簡単であると考えることが多い。
これは、エージェントによって得られる報酬がスパースまたは非常に遅れた高次元状態空間に特に当てはまる。
- 参考スコア(独自算出の注目度): 9.548547582558662
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning has been successful in training autonomous agents to
accomplish goals in complex environments. Although this has been adapted to
multiple settings, including robotics and computer games, human players often
find it easier to obtain higher rewards in some environments than reinforcement
learning algorithms. This is especially true of high-dimensional state spaces
where the reward obtained by the agent is sparse or extremely delayed. In this
paper, we seek to effectively integrate feedback signals supplied by a human
operator with deep reinforcement learning algorithms in high-dimensional state
spaces. We call this FRESH (Feedback-based REward SHaping). During training, a
human operator is presented with trajectories from a replay buffer and then
provides feedback on states and actions in the trajectory. In order to
generalize feedback signals provided by the human operator to previously unseen
states and actions at test-time, we use a feedback neural network. We use an
ensemble of neural networks with a shared network architecture to represent
model uncertainty and the confidence of the neural network in its output. The
output of the feedback neural network is converted to a shaping reward that is
augmented to the reward provided by the environment. We evaluate our approach
on the Bowling and Skiing Atari games in the arcade learning environment.
Although human experts have been able to achieve high scores in these
environments, state-of-the-art deep learning algorithms perform poorly. We
observe that FRESH is able to achieve much higher scores than state-of-the-art
deep learning algorithms in both environments. FRESH also achieves a 21.4%
higher score than a human expert in Bowling and does as well as a human expert
in Skiing.
- Abstract(参考訳): 強化学習は複雑な環境で目標を達成するための自律エージェントの訓練に成功している。
これはロボティクスやコンピュータゲームを含む複数の設定に適応しているが、一部の環境では強化学習アルゴリズムよりも高い報酬を得る方が容易である。
これは、エージェントによって得られる報酬がスパースまたは非常に遅れた高次元状態空間に特に当てはまる。
本稿では,人間の操作者からのフィードバック信号を高次元状態空間における深層強化学習アルゴリズムに効果的に統合することを目的とする。
これをFRESH(FeedbackベースのReward SHaping)と呼ぶ。
トレーニング中、人間オペレータはリプレイバッファからの軌道を提示され、軌道の状態と動作についてのフィードバックを提供する。
人間のオペレータが提供したフィードバック信号を、テスト時に事前に認識した状態やアクションに一般化するために、フィードバックニューラルネットワークを使用する。
我々は、モデルの不確実性とニューラルネットワークの出力に対する信頼性を表すために、ニューラルネットワークと共有ネットワークアーキテクチャのアンサンブルを使用する。
フィードバックニューラルネットワークの出力は、環境が提供する報酬に付加されたシェーピング報酬に変換される。
アーケード学習環境におけるボーリングとスキーのアタリゲームに対する我々のアプローチを評価する。
人間のエキスパートはこれらの環境で高いスコアを得ることができたが、最先端のディープラーニングアルゴリズムはパフォーマンスが悪い。
我々はFRESHが両環境における最先端のディープラーニングアルゴリズムよりもはるかに高いスコアを得られることを観察した。
FRESHはまた、ボーリングの人間専門家よりも21.4%高いスコアを獲得し、スキーの人間専門家でもある。
関連論文リスト
- Proximal Control of UAVs with Federated Learning for Human-Robot Collaborative Domains [3.1043493260209805]
本研究では,Long Short-Term Memory (LSTM) Deep Neural Networks に基づく行動認識制御手法を提案する。
実際のロボットによる実験は96%以上の精度を達成した。
論文 参考訳(メタデータ) (2024-12-03T21:57:04Z) - Autonomous Robotic Reinforcement Learning with Asynchronous Human
Feedback [27.223725464754853]
GEARは、ロボットを現実世界の環境に配置し、中断することなく自律的に訓練することを可能にする。
システムはリモート、クラウドソース、非専門家からの非同期フィードバックのみを必要とする、Webインターフェースにロボットエクスペリエンスをストリームする。
論文 参考訳(メタデータ) (2023-10-31T16:43:56Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Reinforcement Learning in an Adaptable Chess Environment for Detecting
Human-understandable Concepts [0.0]
本研究では,自己学習エージェントが学習の過程で内在する概念を探索する手法を示す。
実演では,研究グループに適した高速で軽量な環境において,チェス演奏エージェントを使用する。
論文 参考訳(メタデータ) (2022-11-10T11:48:10Z) - Learning from humans: combining imitation and deep reinforcement
learning to accomplish human-level performance on a virtual foraging task [6.263481844384228]
本研究では,ヒトデータを用いたバイオインスパイアされた採餌政策の学習方法を開発した。
オープンフィールドの養殖環境に人間が仮想的に没入し、最高の報酬を集めるために訓練される実験を行う。
論文 参考訳(メタデータ) (2022-03-11T20:52:30Z) - ASHA: Assistive Teleoperation via Human-in-the-Loop Reinforcement
Learning [91.58711082348293]
オンラインユーザからのフィードバックからシステムのパフォーマンスに関する強化学習は、この問題に対する自然な解決策である。
このアプローチでは、特にフィードバックが不足している場合には、ループ内の大量のトレーニングデータが必要になる傾向があります。
疎いユーザフィードバックから効率的に学習する階層型ソリューションを提案する。
論文 参考訳(メタデータ) (2022-02-05T02:01:19Z) - Backprop-Free Reinforcement Learning with Active Neural Generative
Coding [84.11376568625353]
動的環境におけるエラー(バックプロップ)のバックプロパゲーションを伴わない行動駆動型生成モデルの学習のための計算フレームワークを提案する。
我々は、まばらな報酬でも機能するインテリジェントエージェントを開発し、推論として計画の認知理論からインスピレーションを得ている。
我々のエージェントの堅牢な性能は、神経推論と学習のためのバックプロップフリーアプローチがゴール指向の行動を促進するという有望な証拠を提供する。
論文 参考訳(メタデータ) (2021-07-10T19:02:27Z) - Learning What To Do by Simulating the Past [76.86449554580291]
学習した特徴エンコーダと学習した逆モデルを組み合わせることで、エージェントが人間の行動を後方にシミュレートして、彼らがすべきことを推測できることを示す。
得られたアルゴリズムは、そのスキルに最適なポリシーから抽出された単一の状態を与えられたMuJoCo環境で特定のスキルを再現することができる。
論文 参考訳(メタデータ) (2021-04-08T17:43:29Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z) - Learning Intrinsic Symbolic Rewards in Reinforcement Learning [7.101885582663675]
低次元のシンボル木の形で高密度報酬を発見する方法を提案する。
得られた高密度報酬は、ベンチマークタスクを解くためのRLポリシーに有効な信号であることを示す。
論文 参考訳(メタデータ) (2020-10-08T00:02:46Z) - Learning Affordance Landscapes for Interaction Exploration in 3D
Environments [101.90004767771897]
エージェントは環境の仕組みを習得できなければならない。
相互作用探索のための強化学習手法を提案する。
AI2-iTHORで私たちのアイデアを実証します。
論文 参考訳(メタデータ) (2020-08-21T00:29:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。