論文の概要: PLEX: Making the Most of the Available Data for Robotic Manipulation
Pretraining
- arxiv url: http://arxiv.org/abs/2303.08789v1
- Date: Wed, 15 Mar 2023 17:31:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 12:55:57.202513
- Title: PLEX: Making the Most of the Available Data for Robotic Manipulation
Pretraining
- Title(参考訳): plex: ロボット操作の事前訓練のために利用可能なデータを最大限に活用する
- Authors: Garrett Thomas, Ching-An Cheng, Ricky Loynd, Vibhav Vineet, Mihai
Jalobeanu, Andrey Kolobov
- Abstract要約: apprのMeta-World-v2ベンチマークの一般化は、Robosuite環境に挑戦する上で最先端のパフォーマンスを確立した。
apprのMeta-World-v2ベンチマークの一般化は、Robosuite環境に挑戦する上で最先端のパフォーマンスを確立した。
- 参考スコア(独自算出の注目度): 20.96226004366745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A rich representation is key to general robotic manipulation, but existing
model architectures require a lot of data to learn it. Unfortunately, ideal
robotic manipulation training data, which comes in the form of expert
visuomotor demonstrations for a variety of annotated tasks, is scarce. In this
work we propose PLEX, a transformer-based architecture that learns from
task-agnostic visuomotor trajectories accompanied by a much larger amount of
task-conditioned object manipulation videos -- a type of robotics-relevant data
available in quantity. The key insight behind PLEX is that the trajectories
with observations and actions help induce a latent feature space and train a
robot to execute task-agnostic manipulation routines, while a diverse set of
video-only demonstrations can efficiently teach the robot how to plan in this
feature space for a wide variety of tasks. In contrast to most works on robotic
manipulation pretraining, PLEX learns a generalizable sensorimotor multi-task
policy, not just an observational representation. We also show that using
relative positional encoding in PLEX's transformers further increases its data
efficiency when learning from human-collected demonstrations. Experiments
showcase \appr's generalization on Meta-World-v2 benchmark and establish
state-of-the-art performance in challenging Robosuite environments.
- Abstract(参考訳): ロボット操作の一般的な鍵はリッチな表現だが、既存のモデルアーキテクチャは学習するために大量のデータを必要とする。
残念ながら、さまざまなアノテートタスクのための専門家による視覚運動のデモという形で提供される理想的なロボット操作トレーニングデータはほとんどない。
本研究では,タスクに依存しないビズモータ軌道から学習するトランスフォーマーベースのアーキテクチャであるPLEXを提案する。
plexの背景にある重要な洞察は、観察と行動を伴う軌道が潜在的な特徴空間を誘導し、ロボットにタスクに依存しない操作ルーチンを実行するように訓練するのに役立つことである。
ロボット操作を事前学習するほとんどの作業とは対照的に、plexは観察的な表現ではなく、汎用的なセンサーモブターのマルチタスクポリシーを学習する。
また, PLEX変換器の相対的位置エンコーディングにより, 人為的な実演から学習する際のデータ効率が向上することを示した。
実験は、meta-world-v2ベンチマークにおける\apprの一般化を示し、ロボスイート環境での最先端のパフォーマンスを確立する。
関連論文リスト
- LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning [50.99807031490589]
LLARVAは,ロボット学習タスク,シナリオ,環境を統一するための,新しい指導指導法で訓練されたモデルである。
我々は,Open X-Embodimentデータセットから8.5Mの画像-視覚的トレースペアを生成し,モデルを事前学習する。
実験によって強い性能が得られ、LLARVAは現代のいくつかのベースラインと比較してよく機能することを示した。
論文 参考訳(メタデータ) (2024-06-17T17:55:29Z) - JUICER: Data-Efficient Imitation Learning for Robotic Assembly [21.43402768760014]
本稿では,人体実験予算を小さくすることで,模擬学習性能を向上させるパイプラインを提案する。
我々のパイプラインは、表現力のあるポリシーアーキテクチャと、データセットの拡張とシミュレーションベースのデータ拡張のための様々な技術を組み合わせています。
シミュレーションで4つの家具組立タスクのパイプラインを実演し、2500近い時間ステップで最大5つの部品をマニピュレータで組み立てます。
論文 参考訳(メタデータ) (2024-04-04T18:00:15Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - Imitating Task and Motion Planning with Visuomotor Transformers [71.41938181838124]
タスク・アンド・モーション・プランニング(TAMP)は、多様なデモンストレーションの大規模なデータセットを自律的に生成できる。
本研究では,TAMPスーパーバイザが生成する大規模データセットと,それらに適合するフレキシブルトランスフォーマーモデルの組み合わせが,ロボット操作の強力なパラダイムであることを示す。
我々は,TAMPエージェントを模倣して大規模ビジュモータトランスフォーマーポリシーを訓練する OPTIMUS という新しい模倣学習システムを提案する。
論文 参考訳(メタデータ) (2023-05-25T17:58:14Z) - VIMA: General Robot Manipulation with Multimodal Prompts [82.01214865117637]
ロボット操作タスクの幅広い範囲をマルチモーダルプロンプトで表現できることを示す。
我々は,数千の手続き的に生成されたテーブルトップタスクからなる新しいシミュレーションベンチマークを開発した。
我々は、これらのプロンプトを処理し、自動回帰的に運動動作を出力するトランスフォーマーベースのロボットエージェントVIMAを設計する。
論文 参考訳(メタデータ) (2022-10-06T17:50:11Z) - Perceiver-Actor: A Multi-Task Transformer for Robotic Manipulation [52.94101901600948]
マルチタスク6-DoF操作のための言語条件付き行動閉鎖エージェントPerActを開発した。
PerActはPerceiver Transformerを用いて言語目標とRGB-Dボクセル観測を符号化し、"次の最良のボクセル動作を検出する"ことで識別された動作を出力する。
以上の結果から,PerActは多様なテーブルトップタスクにおいて,非構造化イメージ・ツー・アクション・エージェントと3D ConvNetベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2022-09-12T17:51:05Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。