論文の概要: Visual Imitation Made Easy
- arxiv url: http://arxiv.org/abs/2008.04899v1
- Date: Tue, 11 Aug 2020 17:58:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 11:11:45.664098
- Title: Visual Imitation Made Easy
- Title(参考訳): 視覚模倣が容易になった
- Authors: Sarah Young, Dhiraj Gandhi, Shubham Tulsiani, Abhinav Gupta, Pieter
Abbeel, Lerrel Pinto
- Abstract要約: 本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
- 参考スコア(独自算出の注目度): 102.36509665008732
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual imitation learning provides a framework for learning complex
manipulation behaviors by leveraging human demonstrations. However, current
interfaces for imitation such as kinesthetic teaching or teleoperation
prohibitively restrict our ability to efficiently collect large-scale data in
the wild. Obtaining such diverse demonstration data is paramount for the
generalization of learned skills to novel scenarios. In this work, we present
an alternate interface for imitation that simplifies the data collection
process while allowing for easy transfer to robots. We use commercially
available reacher-grabber assistive tools both as a data collection device and
as the robot's end-effector. To extract action information from these visual
demonstrations, we use off-the-shelf Structure from Motion (SfM) techniques in
addition to training a finger detection network. We experimentally evaluate on
two challenging tasks: non-prehensile pushing and prehensile stacking, with
1000 diverse demonstrations for each task. For both tasks, we use standard
behavior cloning to learn executable policies from the previously collected
offline demonstrations. To improve learning performance, we employ a variety of
data augmentations and provide an extensive analysis of its effects. Finally,
we demonstrate the utility of our interface by evaluating on real robotic
scenarios with previously unseen objects and achieve a 87% success rate on
pushing and a 62% success rate on stacking. Robot videos are available at
https://dhiraj100892.github.io/Visual-Imitation-Made-Easy.
- Abstract(参考訳): 視覚模倣学習は、人間のデモを利用して複雑な操作行動を学ぶためのフレームワークを提供する。
しかし,現在のキネティックな授業や遠隔操作といった模倣のためのインターフェースは,大規模データを自然界で効率的に収集する能力に制限を課している。
このような多様な実演データを得ることは、新しいシナリオへの学習スキルの一般化に最も重要である。
本稿では,ロボットへの移動を容易にしながら,データ収集プロセスを単純化した模倣インタフェースを提案する。
データ収集装置として,またロボットのエンドエフェクタとして,市販のリーチャーグラバー補助具を使用する。
これらの視覚的デモンストレーションから行動情報を抽出するために,指検出ネットワークのトレーニングに加えて,モーション(SfM)技術を用いたオフザシェルフ構造を用いる。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
どちらのタスクも、標準動作クローンを使用して、以前に収集したオフラインデモから実行可能なポリシーを学習します。
学習性能を向上させるために,様々なデータ拡張を行い,その効果を広範囲に分析する。
最後に,これまで見つからなかった物体を用いた実際のロボットシナリオを評価し,プッシュ時の87%の成功率と積み重ね時の62%の成功率を達成することで,インタフェースの有用性を実証する。
ロボットビデオはhttps://dhiraj100892.github.io/visual-imitation-made-easy。
関連論文リスト
- VITAL: Visual Teleoperation to Enhance Robot Learning through Human-in-the-Loop Corrections [10.49712834719005]
本稿では,VITAL と呼ばれる双方向操作作業のための低コストな視覚遠隔操作システムを提案する。
われわれのアプローチは、安価なハードウェアとビジュアル処理技術を利用してデモを収集する。
実環境と模擬環境の両方を活用することにより,学習方針の一般化性と堅牢性を高める。
論文 参考訳(メタデータ) (2024-07-30T23:29:47Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - Multi-dataset Training of Transformers for Robust Action Recognition [75.5695991766902]
動作認識のための複数のデータセットをうまく一般化することを目的として,ロバストな特徴表現の課題について検討する。
本稿では、情報損失と投影損失という2つの新しい損失項を設計した、新しいマルチデータセットトレーニングパラダイムであるMultiTrainを提案する。
本研究では,Kineetics-400,Kineetics-700,Moments-in-Time,Activitynet,Some-something-v2の5つの課題データセットに対して,本手法の有効性を検証する。
論文 参考訳(メタデータ) (2022-09-26T01:30:43Z) - Continual Learning from Demonstration of Robotics Skills [5.573543601558405]
ロボットに動きのスキルを教える方法は、一度に1つのスキルのトレーニングに集中する。
本稿では,ハイパーネットとニューラル常微分方程式解法を用いた実験から連続学習へのアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-14T16:26:52Z) - Playful Interactions for Representation Learning [82.59215739257104]
本稿では,下流タスクの視覚的表現を学習するために,遊び心のあるインタラクションを自己指導的に利用することを提案する。
19の多様な環境で2時間の遊び心のあるデータを収集し、自己予測学習を用いて視覚的表現を抽出する。
我々の表現は、標準的な行動クローニングよりも一般化され、必要なデモの半数しか必要とせず、同様の性能を達成できる。
論文 参考訳(メタデータ) (2021-07-19T17:54:48Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z) - Learning Object Manipulation Skills via Approximate State Estimation
from Real Videos [47.958512470724926]
人間は、いくつかの指導ビデオを見て、新しいタスクを学ぶことに精通しています。
一方、新しいアクションを学習するロボットは、試行錯誤によって多くの労力を必要とするか、あるいは入手が困難な専門家によるデモを使う必要がある。
本稿では,ビデオから直接オブジェクト操作スキルを学習する手法について検討する。
論文 参考訳(メタデータ) (2020-11-13T08:53:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。