論文の概要: VIMA: General Robot Manipulation with Multimodal Prompts
- arxiv url: http://arxiv.org/abs/2210.03094v1
- Date: Thu, 6 Oct 2022 17:50:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 15:50:13.995813
- Title: VIMA: General Robot Manipulation with Multimodal Prompts
- Title(参考訳): VIMA:マルチモーダルプロンプトによる汎用ロボット操作
- Authors: Yunfan Jiang, Agrim Gupta, Zichen Zhang, Guanzhi Wang, Yongqiang Dou,
Yanjun Chen, Li Fei-Fei, Anima Anandkumar, Yuke Zhu, Linxi Fan
- Abstract要約: 本研究は,多モーダルなプロンプト,テキストおよび視覚トークンのインターリーブにより,ロボット操作タスクの幅広い範囲を表現できることを示唆する。
我々は、これらのプロンプトを処理するトランスフォーマーベースの汎用ロボットエージェントVIMAを設計し、自動回帰的に運動動作を出力する。
我々は,数千の手続き的に生成されるテーブルトップタスクにマルチモーダルプロンプト,模倣学習のための600K以上の専門トラジェクトリ,体系的な一般化のための4つの評価プロトコルを備えた新しいシミュレーションベンチマークを開発した。
- 参考スコア(独自算出の注目度): 82.01214865117637
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt-based learning has emerged as a successful paradigm in natural
language processing, where a single general-purpose language model can be
instructed to perform any task specified by input prompts. Yet task
specification in robotics comes in various forms, such as imitating one-shot
demonstrations, following language instructions, and reaching visual goals.
They are often considered different tasks and tackled by specialized models.
This work shows that we can express a wide spectrum of robot manipulation tasks
with multimodal prompts, interleaving textual and visual tokens. We design a
transformer-based generalist robot agent, VIMA, that processes these prompts
and outputs motor actions autoregressively. To train and evaluate VIMA, we
develop a new simulation benchmark with thousands of procedurally-generated
tabletop tasks with multimodal prompts, 600K+ expert trajectories for imitation
learning, and four levels of evaluation protocol for systematic generalization.
VIMA achieves strong scalability in both model capacity and data size. It
outperforms prior SOTA methods in the hardest zero-shot generalization setting
by up to $2.9\times$ task success rate given the same training data. With
$10\times$ less training data, VIMA still performs $2.7\times$ better than the
top competing approach. We open-source all code, pretrained models, dataset,
and simulation benchmark at https://vimalabs.github.io
- Abstract(参考訳): プロンプトに基づく学習は自然言語処理において成功し、入力プロンプトによって指定されたタスクを実行するために単一の汎用言語モデルを指示することができる。
しかしロボティクスにおけるタスク仕様は、ワンショットデモの模倣、言語指示の追従、視覚目標の達成など、さまざまな形態で実現されている。
それらはしばしば異なるタスクと見なされ、特殊なモデルによって取り組まれる。
本研究は,多モーダルなプロンプト,テキストおよび視覚トークンのインターリーブにより,ロボット操作タスクの幅広い範囲を表現できることを示唆する。
我々は,これらのプロンプトを処理し,自己回帰的に運動行動を出力するトランスフォーマリストロボットエージェントvimaを設計した。
VIMAを訓練し評価するために,数千の手続き的に生成されるテーブルトップタスクにマルチモーダルプロンプト,600K以上の模倣学習専門トラジェクトリ,体系的一般化のための4レベル評価プロトコルを備えた新しいシミュレーションベンチマークを開発した。
VIMAは、モデルキャパシティとデータサイズの両方において、強力なスケーラビリティを実現する。
従来のSOTA法では、同じトレーニングデータから最大2.9\times$タスク成功率で最強のゼロショット一般化設定を上回ります。
10\times$のトレーニングデータでは、vimaは依然として上位のライバルのアプローチよりも2.7\times$が優れている。
私たちはhttps://vimalabs.github.ioで、すべてのコード、事前訓練されたモデル、データセット、シミュレーションベンチマークをオープンソース化しました。
関連論文リスト
- Mastering Robot Manipulation with Multimodal Prompts through Pretraining
and Multi-task Fine-tuning [51.80266015638394]
マルチタスクの専門家軌道からマルチモーダルプロンプトを用いたロボット操作のポリシーを学習するフレームワークを提案する。
本手法は,逆ダイナミクス事前学習とマルチタスク微調整を行う2段階の訓練パイプラインから構成される。
実験により,本手法のVIMA-BENCHに対する有効性を評価し,新たな最先端(成功率10%向上)を確立した。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - Pave the Way to Grasp Anything: Transferring Foundation Models for
Universal Pick-Place Robots [50.73735524550534]
そこで本稿では,最先端基礎モデルによって生成された言語基底セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
マスクから伝達される正確なセマンティクスとジオメトリを多視点ポリシーモデルに統合することにより、正確なオブジェクトのポーズを認識し、サンプル効率のよい学習を可能にする。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions
with Large Language Model [63.66204449776262]
Instruct2Actは、ロボット操作タスクのシーケンシャルアクションにマルチモーダル命令をマッピングするフレームワークである。
我々のアプローチは、様々な命令のモダリティや入力タイプを調節する上で、調整可能で柔軟なものである。
我々のゼロショット法は、いくつかのタスクにおいて、最先端の学習ベースのポリシーよりも優れていた。
論文 参考訳(メタデータ) (2023-05-18T17:59:49Z) - PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。
我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。
562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文 参考訳(メタデータ) (2023-03-06T18:58:06Z) - Instruction-Following Agents with Multimodal Transformer [95.70039658112873]
本稿では,視覚環境下での指示追従課題をロボットが解くための,シンプルで効果的なモデルを提案する。
本手法は,視覚観察と言語指示を符号化したマルチモーダルトランスフォーマーからなる。
この統一型トランスモデルは, シングルタスクとマルチタスクの両方で, 最先端のトレーニング済みあるいは訓練済みのスクラッチ手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-24T17:46:47Z) - Grounding Language with Visual Affordances over Unstructured Data [26.92329260907805]
本研究では,非構造化,オフライン,リセットのないデータから,言語条件のロボットスキルを効率的に学習するための新しい手法を提案する。
我々は、言語による全データの1%しか必要としない自己教師型ビジュオ言語割当モデルを利用する。
提案手法は,従来の手法よりも桁違いに少ないデータで,リアルタイムに長時間の多層タスクを完了できることがわかった。
論文 参考訳(メタデータ) (2022-10-04T21:16:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。