論文の概要: Deep Reinforcement Learning with Interactive Feedback in a Human-Robot
Environment
- arxiv url: http://arxiv.org/abs/2007.03363v2
- Date: Tue, 11 Aug 2020 11:04:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 20:25:45.099002
- Title: Deep Reinforcement Learning with Interactive Feedback in a Human-Robot
Environment
- Title(参考訳): 人間-ロボット環境における対話型フィードバックによる深層強化学習
- Authors: Ithan Moreira, Javier Rivas, Francisco Cruz, Richard Dazeley, Angel
Ayala, Bruno Fernandes
- Abstract要約: 対話型フィードバックを用いた深層強化学習手法を提案し,人間ロボットのシナリオで家庭内課題を学習する。
シミュレーションロボットアームを用いた3つの学習手法を比較し,異なる物体を整理する作業について検討した。
その結果、学習エージェントは、エージェントIDeepRLまたはヒューマンIDeepRLを使用して、与えられたタスクを早期に完了し、自律的なDeepRLアプローチと比較して誤りが少ないことがわかった。
- 参考スコア(独自算出の注目度): 1.2998475032187096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robots are extending their presence in domestic environments every day, being
more common to see them carrying out tasks in home scenarios. In the future,
robots are expected to increasingly perform more complex tasks and, therefore,
be able to acquire experience from different sources as quickly as possible. A
plausible approach to address this issue is interactive feedback, where a
trainer advises a learner on which actions should be taken from specific states
to speed up the learning process. Moreover, deep reinforcement learning has
been recently widely utilized in robotics to learn the environment and acquire
new skills autonomously. However, an open issue when using deep reinforcement
learning is the excessive time needed to learn a task from raw input images. In
this work, we propose a deep reinforcement learning approach with interactive
feedback to learn a domestic task in a human-robot scenario. We compare three
different learning methods using a simulated robotic arm for the task of
organizing different objects; the proposed methods are (i) deep reinforcement
learning (DeepRL); (ii) interactive deep reinforcement learning using a
previously trained artificial agent as an advisor (agent-IDeepRL); and (iii)
interactive deep reinforcement learning using a human advisor (human-IDeepRL).
We demonstrate that interactive approaches provide advantages for the learning
process. The obtained results show that a learner agent, using either
agent-IDeepRL or human-IDeepRL, completes the given task earlier and has fewer
mistakes compared to the autonomous DeepRL approach.
- Abstract(参考訳): ロボットは日常的に国内環境に存在感を広げており、家庭でタスクをこなすのを見るのが一般的だ。
将来的には、ロボットがより複雑なタスクを遂行し、さまざまなソースから可能な限り早く経験を得られるようになることが期待されている。
ここでは、トレーナーが学習プロセスのスピードアップのために、特定の状態からどのアクションを取るべきかを学習者にアドバイスする。
さらに,ロボット工学における深層強化学習は,環境の学習や新たなスキルの獲得に広く利用されている。
しかしながら、深層強化学習を使用する場合のオープン問題は、生の入力画像からタスクを学ぶのに必要な過大な時間である。
本研究では,人間とロボットのシナリオで国内課題を学ぶための対話型フィードバックを用いた深層強化学習手法を提案する。
シミュレーションロボットアームを用いた3つの異なる学習手法の比較を行い,提案手法について検討した。
(i)深層強化学習(DeepRL)
(ii)予め訓練された人工エージェントをアドバイザー(agent-ideeprl)として用いた対話型深層強化学習
(iii)ヒューマンアドバイザ(human-ideeprl)を用いた対話型深層強化学習
インタラクティブなアプローチが学習プロセスにメリットをもたらすことを実証する。
その結果、学習エージェントは、エージェントIDeepRLまたはヒューマンIDeepRLを使用して、与えられたタスクを早期に完了し、自律的なDeepRLアプローチと比較して誤りが少ないことがわかった。
関連論文リスト
- SPIRE: Synergistic Planning, Imitation, and Reinforcement Learning for Long-Horizon Manipulation [58.14969377419633]
タスクをより小さな学習サブプロブレムに分解し、第2に模倣と強化学習を組み合わせてその強みを最大化するシステムであるspireを提案する。
我々は、模倣学習、強化学習、計画を統合する従来の手法よりも平均タスク性能が35%から50%向上していることを発見した。
論文 参考訳(メタデータ) (2024-10-23T17:42:07Z) - Advancing Household Robotics: Deep Interactive Reinforcement Learning for Efficient Training and Enhanced Performance [0.0]
強化学習(Reinforcement Learning, RL)は、ロボットが環境と対話することを可能にする重要なロボティクス技術として登場した。
本稿では,Deep Interactive Reinforcement Learningを通じて情報とアドバイスを保存・再利用する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-29T01:46:50Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Autonomous Robotic Reinforcement Learning with Asynchronous Human
Feedback [27.223725464754853]
GEARは、ロボットを現実世界の環境に配置し、中断することなく自律的に訓練することを可能にする。
システムはリモート、クラウドソース、非専門家からの非同期フィードバックのみを必要とする、Webインターフェースにロボットエクスペリエンスをストリームする。
論文 参考訳(メタデータ) (2023-10-31T16:43:56Z) - Human Decision Makings on Curriculum Reinforcement Learning with
Difficulty Adjustment [52.07473934146584]
我々は,カリキュラム強化学習結果を,人的意思決定プロセスから学ぶことで,難しすぎず,難しすぎるような望ましいパフォーマンスレベルに導く。
本システムは非常に並列化可能であり,大規模強化学習アプリケーションの訓練が可能となる。
強化学習性能は、人間の所望の難易度と同期してうまく調整できることが示される。
論文 参考訳(メタデータ) (2022-08-04T23:53:51Z) - Teachable Reinforcement Learning via Advice Distillation [161.43457947665073]
外部教師が提供した構造化アドバイスから学習する「教育可能な」意思決定システムに基づく対話型学習のための新しい指導パラダイムを提案する。
我々は、アドバイスから学ぶエージェントが、標準的な強化学習アルゴリズムよりも人的監督力の少ない新しいスキルを習得できることを示す。
論文 参考訳(メタデータ) (2022-03-19T03:22:57Z) - Accelerating Robotic Reinforcement Learning via Parameterized Action
Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。
しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。
本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。
動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文 参考訳(メタデータ) (2021-10-28T17:59:30Z) - A Broad-persistent Advising Approach for Deep Interactive Reinforcement
Learning in Robotic Environments [0.3683202928838613]
Deep Interactive Reinforcement Learning (DeepIRL)には、外部トレーナーやエキスパートからのインタラクティブなフィードバックが含まれており、学習プロセスのスピードアップのために、学習者がアクションを選択するのを支援する。
本稿では,BPA(Broad-peristent Advising)を提案する。
トレーナーは、現在の状態だけでなく、同様の状態に関するより一般的なアドバイスを与えるだけでなく、エージェントが学習プロセスのスピードアップを可能にする。
論文 参考訳(メタデータ) (2021-10-15T10:56:00Z) - An Augmented Reality Platform for Introducing Reinforcement Learning to
K-12 Students with Robots [10.835598738100359]
本研究では,学習の隠れ状態を明らかにする拡張現実(AR)システムを提案する。
本稿では,システムの設計と実装について述べるとともに,今後の2つの方向性について議論する。
論文 参考訳(メタデータ) (2021-10-10T03:51:39Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Active Hierarchical Imitation and Reinforcement Learning [0.0]
本研究では,我々が開発した階層的模倣強化学習フレームワークを用いて,様々な模倣学習アルゴリズムを探索し,アクティブ学習アルゴリズムを設計した。
実験の結果,daggerと報酬ベースのアクティブラーニング手法は,トレーニング過程において身体的および精神的により多くの努力を省きながら,よりよいパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2020-12-14T08:27:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。