論文の概要: Autonomous Curiosity for Real-Time Training Onboard Robotic Agents
- arxiv url: http://arxiv.org/abs/2109.00927v1
- Date: Sun, 29 Aug 2021 19:48:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-03 14:03:33.632866
- Title: Autonomous Curiosity for Real-Time Training Onboard Robotic Agents
- Title(参考訳): ロボットエージェントのリアルタイム学習のための自律的好奇心
- Authors: Ervin Teng and Bob Iannucci
- Abstract要約: ロボットプラットフォーム上での物体検出アルゴリズムのオンライン,リアルタイム,人間-イン-ループトレーニングに関連する,好奇心の問題に対処する。
そこで我々は,人間にいつ真実を尋ねるか,いつ動くのかを判断する深層強化学習手法を提案する。
- 参考スコア(独自算出の注目度): 1.2437226707039446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning requires both study and curiosity. A good learner is not only good
at extracting information from the data given to it, but also skilled at
finding the right new information to learn from. This is especially true when a
human operator is required to provide the ground truth - such a source should
only be queried sparingly. In this work, we address the problem of curiosity as
it relates to online, real-time, human-in-the-loop training of an object
detection algorithm onboard a robotic platform, one where motion produces new
views of the subject. We propose a deep reinforcement learning approach that
decides when to ask the human user for ground truth, and when to move. Through
a series of experiments, we demonstrate that our agent learns a movement and
request policy that is at least 3x more effective at using human user
interactions to train an object detector than untrained approaches, and is
generalizable to a variety of subjects and environments.
- Abstract(参考訳): 学習には勉強と好奇心が必要だ。
優れた学習者は、与えられたデータから情報を抽出するだけでなく、学習するべき正しい新しい情報を見つけるのにも長けている。
これは、人間のオペレータが基礎的な真実を提供する必要がある場合に特に当てはまります。
本研究では,ロボットプラットフォーム上での物体検出アルゴリズムのオンライン,リアルタイム,人間-イン-ループトレーニングに関連する好奇心の問題に対処する。
そこで我々は,人間にいつ真実を尋ねるか,いつ動くのかを判断する深層強化学習手法を提案する。
一連の実験を通じて,エージェントは,オブジェクト検出の訓練に人間のインタラクションを使用する場合,未学習のアプローチよりも少なくとも3倍効果的で,さまざまな対象や環境に一般化可能な移動および要求ポリシを学習できることを実証する。
関連論文リスト
- Enhancing Robot Learning through Learned Human-Attention Feature Maps [6.724036710994883]
ロボット学習にフォーカスポイントに関する補助情報を埋め込むことで、学習プロセスの効率性と堅牢性が向上すると考えられる。
本稿では,人間の注意を近似予測モデルでモデル化し,エミュレートするための新しいアプローチを提案する。
我々は,物体検出と模倣学習という2つの学習課題にアプローチを試行する。
論文 参考訳(メタデータ) (2023-08-29T14:23:44Z) - Active Reward Learning from Online Preferences [13.270422559309058]
既存の作業は、人間のフィードバックに基づいて、コストがかかるオフラインで再トレーニングする必要があることが多い。
オンライン方式でペアワイズ・アクション・プライオリティ・クエリを設計・提示することを提案する。
論文 参考訳(メタデータ) (2023-02-27T04:06:17Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Human-to-Robot Imitation in the Wild [50.49660984318492]
本研究では,第三者の視点からの学習を中心に,効率的なワンショットロボット学習アルゴリズムを提案する。
実世界における20種類の操作タスクを含む,ワンショットの一般化と成功を示す。
論文 参考訳(メタデータ) (2022-07-19T17:59:59Z) - What Matters in Learning from Offline Human Demonstrations for Robot
Manipulation [64.43440450794495]
ロボット操作のための6つのオフライン学習アルゴリズムについて広範な研究を行う。
我々の研究は、オフラインの人間のデータから学習する際の最も重要な課題を分析します。
人間のデータセットから学ぶ機会を強調します。
論文 参考訳(メタデータ) (2021-08-06T20:48:30Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Actionable Models: Unsupervised Offline Reinforcement Learning of
Robotic Skills [93.12417203541948]
与えられたデータセットの任意の目標状態に到達するために学習することによって、環境の機能的な理解を学ぶ目的を提案する。
提案手法は,高次元カメラ画像上で動作し,これまで見つからなかったシーンやオブジェクトに一般化した実ロボットの様々なスキルを学習することができる。
論文 参考訳(メタデータ) (2021-04-15T20:10:11Z) - Learning Object Manipulation Skills via Approximate State Estimation
from Real Videos [47.958512470724926]
人間は、いくつかの指導ビデオを見て、新しいタスクを学ぶことに精通しています。
一方、新しいアクションを学習するロボットは、試行錯誤によって多くの労力を必要とするか、あるいは入手が困難な専門家によるデモを使う必要がある。
本稿では,ビデオから直接オブジェクト操作スキルを学習する手法について検討する。
論文 参考訳(メタデータ) (2020-11-13T08:53:47Z) - Human-guided Robot Behavior Learning: A GAN-assisted Preference-based
Reinforcement Learning Approach [2.9764834057085716]
本稿では,新しいGAN支援人間嗜好に基づく強化学習手法を提案する。
GAN(Generative Adversarial Network)を使用して、人間の嗜好を積極的に学習し、選好を割り当てる際の人間の役割を置き換える。
本手法は, 性能犠牲を伴わずに, 約99.8%の人的時間を短縮することができる。
論文 参考訳(メタデータ) (2020-10-15T01:44:06Z) - Learning Dexterous Grasping with Object-Centric Visual Affordances [86.49357517864937]
控えめなロボットハンドは、機敏さと人間のような形態をアピールしています。
本稿では,厳密な把握を学習するためのアプローチを提案する。
私たちのキーとなるアイデアは、オブジェクト中心の視覚的余裕モデルを深い強化学習ループに埋め込むことです。
論文 参考訳(メタデータ) (2020-09-03T04:00:40Z) - Deep Reinforcement Learning with Interactive Feedback in a Human-Robot
Environment [1.2998475032187096]
対話型フィードバックを用いた深層強化学習手法を提案し,人間ロボットのシナリオで家庭内課題を学習する。
シミュレーションロボットアームを用いた3つの学習手法を比較し,異なる物体を整理する作業について検討した。
その結果、学習エージェントは、エージェントIDeepRLまたはヒューマンIDeepRLを使用して、与えられたタスクを早期に完了し、自律的なDeepRLアプローチと比較して誤りが少ないことがわかった。
論文 参考訳(メタデータ) (2020-07-07T11:55:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。