論文の概要: Perceiver-Actor: A Multi-Task Transformer for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2209.05451v1
- Date: Mon, 12 Sep 2022 17:51:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-13 12:14:17.387117
- Title: Perceiver-Actor: A Multi-Task Transformer for Robotic Manipulation
- Title(参考訳): ロボット操作のためのマルチタスクトランスフォーマーperceiver-actor
- Authors: Mohit Shridhar, Lucas Manuelli, Dieter Fox
- Abstract要約: マルチタスク6-DoF操作のための言語条件付き行動閉鎖エージェントPerActを開発した。
PerActはPerceiver Transformerを用いて言語目標とRGB-Dボクセル観測を符号化し、"次の最良のボクセル動作を検出する"ことで識別された動作を出力する。
以上の結果から,PerActは多様なテーブルトップタスクにおいて,非構造化イメージ・ツー・アクション・エージェントと3D ConvNetベースラインを著しく上回っていることがわかった。
- 参考スコア(独自算出の注目度): 52.94101901600948
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have revolutionized vision and natural language processing with
their ability to scale with large datasets. But in robotic manipulation, data
is both limited and expensive. Can we still benefit from Transformers with the
right problem formulation? We investigate this question with PerAct, a
language-conditioned behavior-cloning agent for multi-task 6-DoF manipulation.
PerAct encodes language goals and RGB-D voxel observations with a Perceiver
Transformer, and outputs discretized actions by "detecting the next best voxel
action". Unlike frameworks that operate on 2D images, the voxelized observation
and action space provides a strong structural prior for efficiently learning
6-DoF policies. With this formulation, we train a single multi-task Transformer
for 18 RLBench tasks (with 249 variations) and 7 real-world tasks (with 18
variations) from just a few demonstrations per task. Our results show that
PerAct significantly outperforms unstructured image-to-action agents and 3D
ConvNet baselines for a wide range of tabletop tasks.
- Abstract(参考訳): トランスフォーマーは、大規模なデータセットでスケールする能力によって、視覚と自然言語処理に革命をもたらした。
しかしロボット操作では、データは限定的かつ高価である。
正しい問題定式化を持つトランスフォーマーの恩恵を受けられるか?
マルチタスク 6-dof 操作のための言語条件付きビヘイビアクローニングエージェントである peract を用いて,この問題を調査した。
PerActはPerceiver Transformerで言語目標とRGB-Dのボクセル観測を符号化し、"次の最高のボクセルアクションを検出する"ことで識別されたアクションを出力する。
2dイメージで動作するフレームワークとは異なり、voxelized observationとaction spaceは、6-dofポリシーを効率的に学習するための強力な構造的優先を提供する。
この定式化により、1つのマルチタスクトランスフォーマーを18のRLBenchタスク(249のバリエーション)と7つの現実世界タスク(18のバリエーション)に対して、タスク毎のデモからトレーニングする。
以上の結果から,peract は非構造化イメージ・ツー・アクションエージェントや3d convnet ベースラインを大きく上回っている。
関連論文リスト
- Diffusion Transformer Policy: Scaling Diffusion Transformer for Generalist Vision-Language-Action Learning [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文 参考訳(メタデータ) (2024-10-21T12:43:54Z) - Autoregressive Action Sequence Learning for Robotic Manipulation [32.9580007141312]
既存の自己回帰型アーキテクチャは、言語モデリングにおいて単語トークンとして順次、エンドエフェクタ・ウェイポイントを生成する。
我々は、因果変換器の単一トークン予測を拡張し、単一のステップで可変数のトークンを予測する。
本稿では,ハイブリッドなアクションシーケンスを生成することで操作タスクを解消するAutoregressive Policyアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-10-04T04:07:15Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - Bridging Language, Vision and Action: Multimodal VAEs in Robotic Manipulation Tasks [0.0]
本研究では,ロボット操作分野における教師なし視覚-言語-アクションマッピングに着目した。
本研究では,シミュレータにおけるモデルの性能を最大55%向上させるモデル不変学習法を提案する。
我々の研究は、ロボット運動軌跡の教師なし学習に現在のマルチモーダルVAEを使用することの潜在的な利点と限界にも光を当てている。
論文 参考訳(メタデータ) (2024-04-02T13:25:16Z) - Imitating Task and Motion Planning with Visuomotor Transformers [71.41938181838124]
タスク・アンド・モーション・プランニング(TAMP)は、多様なデモンストレーションの大規模なデータセットを自律的に生成できる。
本研究では,TAMPスーパーバイザが生成する大規模データセットと,それらに適合するフレキシブルトランスフォーマーモデルの組み合わせが,ロボット操作の強力なパラダイムであることを示す。
我々は,TAMPエージェントを模倣して大規模ビジュモータトランスフォーマーポリシーを訓練する OPTIMUS という新しい模倣学習システムを提案する。
論文 参考訳(メタデータ) (2023-05-25T17:58:14Z) - Instruction-driven history-aware policies for robotic manipulations [82.25511767738224]
複数の入力を考慮に入れた統一型トランスフォーマー方式を提案する。
特に,我々のトランスフォーマーアーキテクチャは,(i)自然言語命令と(ii)多視点シーン観測を統合している。
RLBenchベンチマークと実世界のロボットを用いて,本手法の評価を行った。
論文 参考訳(メタデータ) (2022-09-11T16:28:25Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。