論文の概要: Learning to Generalize Across Long-Horizon Tasks from Human
Demonstrations
- arxiv url: http://arxiv.org/abs/2003.06085v2
- Date: Wed, 23 Jun 2021 05:17:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 01:23:44.979230
- Title: Learning to Generalize Across Long-Horizon Tasks from Human
Demonstrations
- Title(参考訳): 人間デモから長距離タスクを一般化する学習
- Authors: Ajay Mandlekar, Danfei Xu, Roberto Mart\'in-Mart\'in, Silvio Savarese,
Li Fei-Fei
- Abstract要約: Generalization Through Imitation (GTI) は、2段階のオフライン模倣学習アルゴリズムである。
GTIは、状態空間の共通領域で異なるタスクの軌道を示す構造を利用する。
GTIの第1段階では,異なる実演軌跡から行動を構成する能力を持つために交差点を利用する政策を訓練する。
GTIの第2段階では、ゴール指向エージェントをトレーニングして、新しいスタートとゴールの設定を一般化する。
- 参考スコア(独自算出の注目度): 52.696205074092006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation learning is an effective and safe technique to train robot policies
in the real world because it does not depend on an expensive random exploration
process. However, due to the lack of exploration, learning policies that
generalize beyond the demonstrated behaviors is still an open challenge. We
present a novel imitation learning framework to enable robots to 1) learn
complex real world manipulation tasks efficiently from a small number of human
demonstrations, and 2) synthesize new behaviors not contained in the collected
demonstrations. Our key insight is that multi-task domains often present a
latent structure, where demonstrated trajectories for different tasks intersect
at common regions of the state space. We present Generalization Through
Imitation (GTI), a two-stage offline imitation learning algorithm that exploits
this intersecting structure to train goal-directed policies that generalize to
unseen start and goal state combinations. In the first stage of GTI, we train a
stochastic policy that leverages trajectory intersections to have the capacity
to compose behaviors from different demonstration trajectories together. In the
second stage of GTI, we collect a small set of rollouts from the unconditioned
stochastic policy of the first stage, and train a goal-directed agent to
generalize to novel start and goal configurations. We validate GTI in both
simulated domains and a challenging long-horizon robotic manipulation domain in
the real world. Additional results and videos are available at
https://sites.google.com/view/gti2020/ .
- Abstract(参考訳): 模倣学習は、高価なランダム探索プロセスに依存しないため、現実世界でロボットポリシーを訓練するための効果的で安全な手法である。
しかし、探索の欠如により、実証された行動を超えて一般化する学習方針は依然としてオープンな課題である。
本稿では,ロボットの模倣学習の枠組みを提案する。
1)少数の人間のデモンストレーションから複雑な実世界の操作タスクを効率的に学習し、
2) 収集した実演に含まれない新たな行動の合成。
我々の重要な洞察は、多タスク領域がしばしば潜在構造を持ち、状態空間の共通領域で異なるタスクの軌道が交差することを示すことである。
本稿では,この間欠的構造を利用した2段階のオフライン模倣学習アルゴリズムであるimitation(gti)による一般化について述べる。
GTIの第1段階では、異なる実演軌跡から行動を構成する能力を持つために軌道交叉を利用する確率的ポリシーを訓練する。
GTIの第2段階では、第1段階の無条件確率ポリシーからロールアウトの小さなセットを収集し、ゴール指向エージェントをトレーニングして、新規なスタートおよびゴール設定を一般化する。
我々は,実世界におけるGTIのシミュレーション領域と長距離ロボット操作領域の両面での検証を行った。
追加の結果とビデオはhttps://sites.google.com/view/gti2020/で見ることができる。
関連論文リスト
- Instant Policy: In-Context Imitation Learning via Graph Diffusion [12.879700241782528]
In-context Imitation Learning (ICIL)は、ロボット工学にとって有望な機会である。
Instant Policyを導入し、たった1、2つのデモからすぐに新しいタスクを学習します。
また,言語定義タスクへのクロスボデーメントやゼロショット転送の基盤として機能することを示す。
論文 参考訳(メタデータ) (2024-11-19T16:45:52Z) - Learning the Generalizable Manipulation Skills on Soft-body Tasks via Guided Self-attention Behavior Cloning Policy [9.345203561496552]
GP2E行動クローニングポリシーは、ソフトボディタスクから汎用的な操作スキルを学ぶためのエージェントを誘導することができる。
本研究は,Embodied AIモデルの一般化能力を向上する手法の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2024-10-08T07:31:10Z) - Single-Shot Learning of Stable Dynamical Systems for Long-Horizon Manipulation Tasks [48.54757719504994]
本稿では,必要なトレーニングデータ量を削減しつつ,タスク成功率の向上に焦点をあてる。
提案手法では,長距離実証をウェイポイントとサブゴールで定義された離散ステップに分割する手法を提案する。
シミュレーションと実世界の両方の実験を通して,本手法を検証し,シミュレーションから物理ロボットプラットフォームへの効果的移行を実証した。
論文 参考訳(メタデータ) (2024-10-01T19:49:56Z) - Leveraging Sequentiality in Reinforcement Learning from a Single
Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。
本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文 参考訳(メタデータ) (2022-11-09T10:28:40Z) - Silver-Bullet-3D at ManiSkill 2021: Learning-from-Demonstrations and
Heuristic Rule-based Methods for Object Manipulation [118.27432851053335]
本稿では,SAPIEN ManiSkill Challenge 2021: No Interaction Trackにおいて,以下の2つのトラックを対象としたシステムの概要と比較分析を行った。
No Interactionは、事前に収集された実証軌道からの学習ポリシーのターゲットを追跡する。
このトラックでは,タスクを一連のサブタスクに分解することで,高品質なオブジェクト操作をトリガするHuristic Rule-based Method (HRM) を設計する。
各サブタスクに対して、ロボットアームに適用可能なアクションを予測するために、単純なルールベースの制御戦略が採用されている。
論文 参考訳(メタデータ) (2022-06-13T16:20:42Z) - Bottom-Up Skill Discovery from Unsegmented Demonstrations for
Long-Horizon Robot Manipulation [55.31301153979621]
我々は,実世界の長距離ロボット操作作業に,スキル発見による取り組みを行う。
未解決のデモンストレーションから再利用可能なスキルのライブラリを学ぶためのボトムアップアプローチを提案する。
提案手法は,多段階操作タスクにおける最先端の模倣学習手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-09-28T16:18:54Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。