論文の概要: A Framework for Learning from Demonstration with Minimal Human Effort
- arxiv url: http://arxiv.org/abs/2306.09211v1
- Date: Thu, 15 Jun 2023 15:49:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 14:06:27.316053
- Title: A Framework for Learning from Demonstration with Minimal Human Effort
- Title(参考訳): 最小限の人的努力による実証から学ぶための枠組み
- Authors: Marc Rigter, Bruno Lacerda, Nick Hawes
- Abstract要約: ロボット学習は、システムの制御が人間の遠隔操作と自律的な制御とを切り替えることのできる、共有自律という文脈で考える。
この設定では、強化学習と、人的時間に関連するコストがある実演からの学習に対処する。
提案手法は,2つのシミュレートされたタスクと1つの実世界のタスクを実行するための人件費を削減できることを示す。
- 参考スコア(独自算出の注目度): 11.183124892686239
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider robot learning in the context of shared autonomy, where control
of the system can switch between a human teleoperator and autonomous control.
In this setting we address reinforcement learning, and learning from
demonstration, where there is a cost associated with human time. This cost
represents the human time required to teleoperate the robot, or recover the
robot from failures. For each episode, the agent must choose between requesting
human teleoperation, or using one of its autonomous controllers. In our
approach, we learn to predict the success probability for each controller,
given the initial state of an episode. This is used in a contextual multi-armed
bandit algorithm to choose the controller for the episode. A controller is
learnt online from demonstrations and reinforcement learning so that autonomous
performance improves, and the system becomes less reliant on the teleoperator
with more experience. We show that our approach to controller selection reduces
the human cost to perform two simulated tasks and a single real-world task.
- Abstract(参考訳): 我々は,ロボット学習を共有自律の文脈で考える。システムの制御は,人間の遠隔操作と自律制御に切り替えることができる。
この環境では、強化学習と、人間の時間に関連するコストがあるデモから学ぶことを取り上げます。
このコストは、ロボットを遠隔操作したり、失敗からロボットを回収するのに要する時間を表す。
各エピソードでは、エージェントは人間の遠隔操作をリクエストするか、自走式コントローラのいずれかを使うかを選ばなければならない。
私たちのアプローチでは、エピソードの初期状態を考えると、各コントローラの成功確率を予測することを学びます。
これは、エピソードのコントローラを選択するために、コンテキスト多重武装バンディットアルゴリズムで使用される。
コントローラはデモや強化学習からオンラインで学習され、自律的なパフォーマンスが向上し、システムはより多くの経験を持つテレオペレータに依存しなくなる。
提案手法は,2つのシミュレーションタスクと1つの実世界のタスクを実行するための人的コストを削減する。
関連論文リスト
- Stabilizing Contrastive RL: Techniques for Robotic Goal Reaching from
Offline Data [101.43350024175157]
自己指導型学習は、制御戦略を学ぶのに必要な人間のアノテーションとエンジニアリングの労力を減らす可能性がある。
我々の研究は、強化学習(RL)自体が自己監督的な問題であることを示す先行研究に基づいている。
コントラスト学習に基づく自己教師付きRLアルゴリズムは,実世界の画像に基づくロボット操作タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-06-06T01:36:56Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - PATO: Policy Assisted TeleOperation for Scalable Robot Data Collection [19.04536551595612]
Policy Assisted TeleOperation (PATO) は、学習された支援ポリシーを用いて、デモ収集プロセスの一部を自動化するシステムである。
PATOはデータ収集における反復的な動作を自律的に実行し、どのサブタスクや動作を実行するかが不確実な場合にのみ人間の入力を要求する。
論文 参考訳(メタデータ) (2022-12-09T07:38:09Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Leveraging Sequentiality in Reinforcement Learning from a Single
Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。
本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文 参考訳(メタデータ) (2022-11-09T10:28:40Z) - GenLoco: Generalized Locomotion Controllers for Quadrupedal Robots [87.32145104894754]
四足歩行ロボットのための汎用ロコモーション(GenLoco)コントローラを訓練するためのフレームワークを提案する。
本フレームワークは,多種多様な四足歩行ロボットに展開可能な汎用ロコモーションコントローラを合成する。
我々のモデルは、より一般的な制御戦略を取得し、新しいシミュレーションロボットや実世界のロボットに直接移行できることを示す。
論文 参考訳(メタデータ) (2022-09-12T15:14:32Z) - Robotic Telekinesis: Learning a Robotic Hand Imitator by Watching Humans
on Youtube [24.530131506065164]
我々は、人間なら誰でもロボットの手と腕を制御できるシステムを構築します。
ロボットは、人間のオペレーターを1台のRGBカメラで観察し、その動作をリアルタイムで模倣する。
我々はこのデータを利用して、人間の手を理解するシステムを訓練し、人間のビデオストリームをスムーズで、素早く、安全に、意味論的に誘導デモに類似したロボットのハンドアーム軌道に再ターゲティングする。
論文 参考訳(メタデータ) (2022-02-21T18:59:59Z) - Training Robots without Robots: Deep Imitation Learning for
Master-to-Robot Policy Transfer [4.318590074766604]
深層模倣学習は、デモサンプルのみを必要とするため、ロボット操作に有望である。
既存の実証手法には欠点があり、双方向遠隔操作には複雑な制御方式が必要であり、高価である。
本研究は、力覚フィードバックに基づく操作タスクをロボットに教える必要がない新しいM2Rポリシー伝達システムを提案する。
論文 参考訳(メタデータ) (2022-02-19T10:55:10Z) - LaND: Learning to Navigate from Disengagements [158.6392333480079]
本研究では,学習者に対する学習支援のための強化学習手法(LaND)を提案する。
LaNDは現在の知覚的観察から、どのアクションが解離につながるかを予測するニューラルネットワークモデルを学び、テスト時計画で解離を回避するアクションを実行する。
以上の結果から,LaNDは多種多様な現実世界の歩道環境を学習し,模倣学習と強化学習の両方に優れることを示した。
論文 参考訳(メタデータ) (2020-10-09T17:21:42Z) - Learning User-Preferred Mappings for Intuitive Robot Control [28.183430654834307]
そこで本研究では,ロボットのクエリから,人間の好みのマッピングや事前認識のマッピングを学習する手法を提案する。
我々は、人間の地図に強い先行性があることを認識して、このアプローチをデータ効率良くする。
シミュレーションおよび実験結果から,入力とロボット動作のマッピングを学習することで,客観的および主観的パフォーマンスが向上することが示唆された。
論文 参考訳(メタデータ) (2020-07-22T18:54:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。