論文の概要: PLEX: Making the Most of the Available Data for Robotic Manipulation
Pretraining
- arxiv url: http://arxiv.org/abs/2303.08789v1
- Date: Wed, 15 Mar 2023 17:31:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 12:55:57.202513
- Title: PLEX: Making the Most of the Available Data for Robotic Manipulation
Pretraining
- Title(参考訳): plex: ロボット操作の事前訓練のために利用可能なデータを最大限に活用する
- Authors: Garrett Thomas, Ching-An Cheng, Ricky Loynd, Vibhav Vineet, Mihai
Jalobeanu, Andrey Kolobov
- Abstract要約: apprのMeta-World-v2ベンチマークの一般化は、Robosuite環境に挑戦する上で最先端のパフォーマンスを確立した。
apprのMeta-World-v2ベンチマークの一般化は、Robosuite環境に挑戦する上で最先端のパフォーマンスを確立した。
- 参考スコア(独自算出の注目度): 20.96226004366745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A rich representation is key to general robotic manipulation, but existing
model architectures require a lot of data to learn it. Unfortunately, ideal
robotic manipulation training data, which comes in the form of expert
visuomotor demonstrations for a variety of annotated tasks, is scarce. In this
work we propose PLEX, a transformer-based architecture that learns from
task-agnostic visuomotor trajectories accompanied by a much larger amount of
task-conditioned object manipulation videos -- a type of robotics-relevant data
available in quantity. The key insight behind PLEX is that the trajectories
with observations and actions help induce a latent feature space and train a
robot to execute task-agnostic manipulation routines, while a diverse set of
video-only demonstrations can efficiently teach the robot how to plan in this
feature space for a wide variety of tasks. In contrast to most works on robotic
manipulation pretraining, PLEX learns a generalizable sensorimotor multi-task
policy, not just an observational representation. We also show that using
relative positional encoding in PLEX's transformers further increases its data
efficiency when learning from human-collected demonstrations. Experiments
showcase \appr's generalization on Meta-World-v2 benchmark and establish
state-of-the-art performance in challenging Robosuite environments.
- Abstract(参考訳): ロボット操作の一般的な鍵はリッチな表現だが、既存のモデルアーキテクチャは学習するために大量のデータを必要とする。
残念ながら、さまざまなアノテートタスクのための専門家による視覚運動のデモという形で提供される理想的なロボット操作トレーニングデータはほとんどない。
本研究では,タスクに依存しないビズモータ軌道から学習するトランスフォーマーベースのアーキテクチャであるPLEXを提案する。
plexの背景にある重要な洞察は、観察と行動を伴う軌道が潜在的な特徴空間を誘導し、ロボットにタスクに依存しない操作ルーチンを実行するように訓練するのに役立つことである。
ロボット操作を事前学習するほとんどの作業とは対照的に、plexは観察的な表現ではなく、汎用的なセンサーモブターのマルチタスクポリシーを学習する。
また, PLEX変換器の相対的位置エンコーディングにより, 人為的な実演から学習する際のデータ効率が向上することを示した。
実験は、meta-world-v2ベンチマークにおける\apprの一般化を示し、ロボスイート環境での最先端のパフォーマンスを確立する。
関連論文リスト
- Scaling Robot Learning with Semantically Imagined Experience [21.361979238427722]
ロボット学習の最近の進歩は、ロボットが操作タスクを実行できることを約束している。
この進歩に寄与する要因の1つは、モデルのトレーニングに使用されるロボットデータのスケールである。
本稿では,コンピュータビジョンや自然言語処理に広く用いられているテキスト・ツー・イメージ基盤モデルを利用した代替手法を提案する。
論文 参考訳(メタデータ) (2023-02-22T18:47:51Z) - Zero-Shot Robot Manipulation from Passive Human Videos [59.193076151832145]
我々は,人間の映像からエージェント非依存の行動表現を抽出するフレームワークを開発した。
我々の枠組みは、人間の手の動きを予測することに基づいている。
トレーニングされたモデルゼロショットを物理ロボット操作タスクにデプロイする。
論文 参考訳(メタデータ) (2023-02-03T21:39:52Z) - RT-1: Robotics Transformer for Real-World Control at Scale [98.09428483862165]
我々は,有望なスケーラブルなモデル特性を示す,ロボティクストランスフォーマーと呼ばれるモデルクラスを提示する。
実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。
論文 参考訳(メタデータ) (2022-12-13T18:55:15Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - PACT: Perception-Action Causal Transformer for Autoregressive Robotics
Pre-Training [25.50131893785007]
本研究は,ロボットにおける複数のタスクの出発点として機能する汎用表現を事前学習するためのパラダイムを導入する。
本稿では,ロボットデータから直接表現を自己管理的に構築することを目的として,PACT(Perception-Action Causal Transformer)を提案する。
より大規模な事前学習モデル上に小さなタスク特化ネットワークを微調整すると、同時に1つのモデルをスクラッチからトレーニングするのに比べ、性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-09-22T16:20:17Z) - Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human
Videos [59.58105314783289]
ドメインに依存しないビデオ識別器(DVD)は、2つのビデオが同じタスクを実行しているかどうかを判断するために識別器を訓練することによりマルチタスク報酬関数を学習する。
DVDは、人間のビデオの広いデータセットで少量のロボットデータから学習することで、一般化することができる。
DVDと視覚モデル予測制御を組み合わせることで、実際のWidowX200ロボットのロボット操作タスクを単一の人間のデモから未知の環境で解決できます。
論文 参考訳(メタデータ) (2021-03-31T05:25:05Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z) - Learning Predictive Models From Observation and Interaction [137.77887825854768]
世界との相互作用から予測モデルを学ぶことで、ロボットのようなエージェントが世界がどのように働くかを学ぶことができる。
しかし、複雑なスキルのダイナミクスを捉えるモデルを学ぶことは大きな課題である。
本研究では,人間などの他のエージェントの観察データを用いて,トレーニングセットを増強する手法を提案する。
論文 参考訳(メタデータ) (2019-12-30T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。