論文の概要: Learning to Generalize Across Long-Horizon Tasks from Human
Demonstrations
- arxiv url: http://arxiv.org/abs/2003.06085v2
- Date: Wed, 23 Jun 2021 05:17:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 01:23:44.979230
- Title: Learning to Generalize Across Long-Horizon Tasks from Human
Demonstrations
- Title(参考訳): 人間デモから長距離タスクを一般化する学習
- Authors: Ajay Mandlekar, Danfei Xu, Roberto Mart\'in-Mart\'in, Silvio Savarese,
Li Fei-Fei
- Abstract要約: Generalization Through Imitation (GTI) は、2段階のオフライン模倣学習アルゴリズムである。
GTIは、状態空間の共通領域で異なるタスクの軌道を示す構造を利用する。
GTIの第1段階では,異なる実演軌跡から行動を構成する能力を持つために交差点を利用する政策を訓練する。
GTIの第2段階では、ゴール指向エージェントをトレーニングして、新しいスタートとゴールの設定を一般化する。
- 参考スコア(独自算出の注目度): 52.696205074092006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation learning is an effective and safe technique to train robot policies
in the real world because it does not depend on an expensive random exploration
process. However, due to the lack of exploration, learning policies that
generalize beyond the demonstrated behaviors is still an open challenge. We
present a novel imitation learning framework to enable robots to 1) learn
complex real world manipulation tasks efficiently from a small number of human
demonstrations, and 2) synthesize new behaviors not contained in the collected
demonstrations. Our key insight is that multi-task domains often present a
latent structure, where demonstrated trajectories for different tasks intersect
at common regions of the state space. We present Generalization Through
Imitation (GTI), a two-stage offline imitation learning algorithm that exploits
this intersecting structure to train goal-directed policies that generalize to
unseen start and goal state combinations. In the first stage of GTI, we train a
stochastic policy that leverages trajectory intersections to have the capacity
to compose behaviors from different demonstration trajectories together. In the
second stage of GTI, we collect a small set of rollouts from the unconditioned
stochastic policy of the first stage, and train a goal-directed agent to
generalize to novel start and goal configurations. We validate GTI in both
simulated domains and a challenging long-horizon robotic manipulation domain in
the real world. Additional results and videos are available at
https://sites.google.com/view/gti2020/ .
- Abstract(参考訳): 模倣学習は、高価なランダム探索プロセスに依存しないため、現実世界でロボットポリシーを訓練するための効果的で安全な手法である。
しかし、探索の欠如により、実証された行動を超えて一般化する学習方針は依然としてオープンな課題である。
本稿では,ロボットの模倣学習の枠組みを提案する。
1)少数の人間のデモンストレーションから複雑な実世界の操作タスクを効率的に学習し、
2) 収集した実演に含まれない新たな行動の合成。
我々の重要な洞察は、多タスク領域がしばしば潜在構造を持ち、状態空間の共通領域で異なるタスクの軌道が交差することを示すことである。
本稿では,この間欠的構造を利用した2段階のオフライン模倣学習アルゴリズムであるimitation(gti)による一般化について述べる。
GTIの第1段階では、異なる実演軌跡から行動を構成する能力を持つために軌道交叉を利用する確率的ポリシーを訓練する。
GTIの第2段階では、第1段階の無条件確率ポリシーからロールアウトの小さなセットを収集し、ゴール指向エージェントをトレーニングして、新規なスタートおよびゴール設定を一般化する。
我々は,実世界におけるGTIのシミュレーション領域と長距離ロボット操作領域の両面での検証を行った。
追加の結果とビデオはhttps://sites.google.com/view/gti2020/で見ることができる。
関連論文リスト
- Pave the Way to Grasp Anything: Transferring Foundation Models for
Universal Pick-Place Robots [50.73735524550534]
そこで本稿では,最先端基礎モデルによって生成された言語基底セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
マスクから伝達される正確なセマンティクスとジオメトリを多視点ポリシーモデルに統合することにより、正確なオブジェクトのポーズを認識し、サンプル効率のよい学習を可能にする。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Leveraging Sequentiality in Reinforcement Learning from a Single
Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。
本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文 参考訳(メタデータ) (2022-11-09T10:28:40Z) - Silver-Bullet-3D at ManiSkill 2021: Learning-from-Demonstrations and
Heuristic Rule-based Methods for Object Manipulation [118.27432851053335]
本稿では,SAPIEN ManiSkill Challenge 2021: No Interaction Trackにおいて,以下の2つのトラックを対象としたシステムの概要と比較分析を行った。
No Interactionは、事前に収集された実証軌道からの学習ポリシーのターゲットを追跡する。
このトラックでは,タスクを一連のサブタスクに分解することで,高品質なオブジェクト操作をトリガするHuristic Rule-based Method (HRM) を設計する。
各サブタスクに対して、ロボットアームに適用可能なアクションを予測するために、単純なルールベースの制御戦略が採用されている。
論文 参考訳(メタデータ) (2022-06-13T16:20:42Z) - Bottom-Up Skill Discovery from Unsegmented Demonstrations for
Long-Horizon Robot Manipulation [55.31301153979621]
我々は,実世界の長距離ロボット操作作業に,スキル発見による取り組みを行う。
未解決のデモンストレーションから再利用可能なスキルのライブラリを学ぶためのボトムアップアプローチを提案する。
提案手法は,多段階操作タスクにおける最先端の模倣学習手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-09-28T16:18:54Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z) - Mobile Robot Path Planning in Dynamic Environments through Globally
Guided Reinforcement Learning [12.813442161633116]
本稿では,多ボット計画問題の解決を目的として,グローバルガイド型学習強化手法(G2RL)を提案する。
G2RLは任意の環境に一般化する新しい経路報酬構造を組み込んでいる。
提案手法は,異なるマップタイプ,障害物密度,ロボット数にまたがって評価する。
論文 参考訳(メタデータ) (2020-05-11T20:42:29Z) - SQUIRL: Robust and Efficient Learning from Video Demonstration of
Long-Horizon Robotic Manipulation Tasks [8.756012472587601]
深層強化学習(RL)は複雑な操作タスクを学習するために用いられる。
RLは、ロボットが大量の現実世界の経験を収集する必要がある。
SQUIRLは、単一のビデオデモしか持たない、新しいが関連するロングホライゾンタスクを実行する。
論文 参考訳(メタデータ) (2020-03-10T20:26:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。