論文の概要: Imitating Task and Motion Planning with Visuomotor Transformers
- arxiv url: http://arxiv.org/abs/2305.16309v2
- Date: Fri, 29 Sep 2023 22:27:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 14:33:42.973218
- Title: Imitating Task and Motion Planning with Visuomotor Transformers
- Title(参考訳): 振動子変圧器によるタスクの模倣と動作計画
- Authors: Murtaza Dalal, Ajay Mandlekar, Caelan Garrett, Ankur Handa, Ruslan
Salakhutdinov, Dieter Fox
- Abstract要約: タスク・アンド・モーション・プランニング(TAMP)は、多様なデモンストレーションの大規模なデータセットを自律的に生成できる。
本研究では,TAMPスーパーバイザが生成する大規模データセットと,それらに適合するフレキシブルトランスフォーマーモデルの組み合わせが,ロボット操作の強力なパラダイムであることを示す。
我々は,TAMPエージェントを模倣して大規模ビジュモータトランスフォーマーポリシーを訓練する OPTIMUS という新しい模倣学習システムを提案する。
- 参考スコア(独自算出の注目度): 71.41938181838124
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation learning is a powerful tool for training robot manipulation
policies, allowing them to learn from expert demonstrations without manual
programming or trial-and-error. However, common methods of data collection,
such as human supervision, scale poorly, as they are time-consuming and
labor-intensive. In contrast, Task and Motion Planning (TAMP) can autonomously
generate large-scale datasets of diverse demonstrations. In this work, we show
that the combination of large-scale datasets generated by TAMP supervisors and
flexible Transformer models to fit them is a powerful paradigm for robot
manipulation. To that end, we present a novel imitation learning system called
OPTIMUS that trains large-scale visuomotor Transformer policies by imitating a
TAMP agent. OPTIMUS introduces a pipeline for generating TAMP data that is
specifically curated for imitation learning and can be used to train performant
transformer-based policies. In this paper, we present a thorough study of the
design decisions required to imitate TAMP and demonstrate that OPTIMUS can
solve a wide variety of challenging vision-based manipulation tasks with over
70 different objects, ranging from long-horizon pick-and-place tasks, to shelf
and articulated object manipulation, achieving 70 to 80% success rates. Video
results and code at https://mihdalal.github.io/optimus/
- Abstract(参考訳): 模倣学習はロボット操作ポリシーをトレーニングするための強力なツールであり、手動プログラミングや試行錯誤なしに専門家によるデモンストレーションから学ぶことができる。
しかし、人間の監督のような一般的なデータ収集方法は、時間と労力がかかるため、スケールが貧弱である。
対照的に、タスク・アンド・モーション・プランニング(TAMP)は多様なデモンストレーションの大規模なデータセットを自律的に生成できる。
本研究では,tampスーパーバイザが生成する大規模データセットと,それらに適合するフレキシブルトランスフォーマーモデルの組み合わせがロボット操作の強力なパラダイムであることを示す。
そこで本研究では,TAMPエージェントを模倣して大規模ビジュモータトランスフォーマーポリシーを訓練する,OPTIMUSと呼ばれる新しい模倣学習システムを提案する。
OPTIMUSは、模倣学習用に特別にキュレートされたTAMPデータを生成するパイプラインを導入し、パフォーマンストランスフォーマーベースのポリシーのトレーニングに使用することができる。
本稿では,TAMP を模倣するために必要な設計上の決定を徹底的に検討し,OPTIMUS が70 以上の物体から70 以上の物体を対象とし,70 から80% の成功率を達成できることを示す。
ビデオ結果とコードはhttps://mihdal.github.io/optimus/
関連論文リスト
- Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers [41.069074375686164]
本稿では、政策ニューラルネットワークのトランクを事前訓練してタスクを学習し、共有表現を具体化する異種事前学習トランスフォーマー(HPT)を提案する。
52データセットの範囲で,トレーニング対象のスケーリング行動を調べる実験を行った。
HPTはいくつかのベースラインを上回り、未確認タスクで20%以上の微調整されたポリシー性能を向上させる。
論文 参考訳(メタデータ) (2024-09-30T17:39:41Z) - Bridging Language, Vision and Action: Multimodal VAEs in Robotic Manipulation Tasks [0.0]
本研究では,ロボット操作分野における教師なし視覚-言語-アクションマッピングに着目した。
本研究では,シミュレータにおけるモデルの性能を最大55%向上させるモデル不変学習法を提案する。
我々の研究は、ロボット運動軌跡の教師なし学習に現在のマルチモーダルVAEを使用することの潜在的な利点と限界にも光を当てている。
論文 参考訳(メタデータ) (2024-04-02T13:25:16Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。
このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。
マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - DiMSam: Diffusion Models as Samplers for Task and Motion Planning under Partial Observability [58.75803543245372]
タスク・アンド・モーション・プランニング(TAMP)アプローチは多段階自律ロボット操作の計画に適している。
本稿では,TAMPシステムを用いた拡散モデルの構築により,これらの制限を克服することを提案する。
古典的TAMP, 生成モデリング, 潜伏埋め込みの組み合わせによって, 多段階制約に基づく推論が可能となることを示す。
論文 参考訳(メタデータ) (2023-06-22T20:40:24Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - From Play to Policy: Conditional Behavior Generation from Uncurated
Robot Data [18.041329181385414]
Conditional Behavior Transformer (C-BeT) は、動作変換器のマルチモーダル生成能力と将来の目標仕様を組み合わせた手法である。
C-BeTは、プレイデータから学ぶための最先端の研究を平均45.7%改善している。
プレイデータから実世界のロボットで有用なタスク中心の振る舞いを学習できることを初めて実証する。
論文 参考訳(メタデータ) (2022-10-18T17:59:55Z) - Transporters with Visual Foresight for Solving Unseen Rearrangement
Tasks [12.604533231243543]
Visual Foresight (TVF) を使ったトランスポーターは、目に見えないタスクに対してマルチタスク学習とゼロショットの一般化を実現することができる。
TVFは、シミュレーションと実際のロボット実験において、トレーニングと見えないタスクの両方において、最先端の模倣学習手法の性能を向上させることができる。
論文 参考訳(メタデータ) (2022-02-22T09:35:09Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。