論文の概要: VIMA: General Robot Manipulation with Multimodal Prompts
- arxiv url: http://arxiv.org/abs/2210.03094v1
- Date: Thu, 6 Oct 2022 17:50:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 15:50:13.995813
- Title: VIMA: General Robot Manipulation with Multimodal Prompts
- Title(参考訳): VIMA:マルチモーダルプロンプトによる汎用ロボット操作
- Authors: Yunfan Jiang, Agrim Gupta, Zichen Zhang, Guanzhi Wang, Yongqiang Dou,
Yanjun Chen, Li Fei-Fei, Anima Anandkumar, Yuke Zhu, Linxi Fan
- Abstract要約: 本研究は,多モーダルなプロンプト,テキストおよび視覚トークンのインターリーブにより,ロボット操作タスクの幅広い範囲を表現できることを示唆する。
我々は、これらのプロンプトを処理するトランスフォーマーベースの汎用ロボットエージェントVIMAを設計し、自動回帰的に運動動作を出力する。
我々は,数千の手続き的に生成されるテーブルトップタスクにマルチモーダルプロンプト,模倣学習のための600K以上の専門トラジェクトリ,体系的な一般化のための4つの評価プロトコルを備えた新しいシミュレーションベンチマークを開発した。
- 参考スコア(独自算出の注目度): 82.01214865117637
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt-based learning has emerged as a successful paradigm in natural
language processing, where a single general-purpose language model can be
instructed to perform any task specified by input prompts. Yet task
specification in robotics comes in various forms, such as imitating one-shot
demonstrations, following language instructions, and reaching visual goals.
They are often considered different tasks and tackled by specialized models.
This work shows that we can express a wide spectrum of robot manipulation tasks
with multimodal prompts, interleaving textual and visual tokens. We design a
transformer-based generalist robot agent, VIMA, that processes these prompts
and outputs motor actions autoregressively. To train and evaluate VIMA, we
develop a new simulation benchmark with thousands of procedurally-generated
tabletop tasks with multimodal prompts, 600K+ expert trajectories for imitation
learning, and four levels of evaluation protocol for systematic generalization.
VIMA achieves strong scalability in both model capacity and data size. It
outperforms prior SOTA methods in the hardest zero-shot generalization setting
by up to $2.9\times$ task success rate given the same training data. With
$10\times$ less training data, VIMA still performs $2.7\times$ better than the
top competing approach. We open-source all code, pretrained models, dataset,
and simulation benchmark at https://vimalabs.github.io
- Abstract(参考訳): プロンプトに基づく学習は自然言語処理において成功し、入力プロンプトによって指定されたタスクを実行するために単一の汎用言語モデルを指示することができる。
しかしロボティクスにおけるタスク仕様は、ワンショットデモの模倣、言語指示の追従、視覚目標の達成など、さまざまな形態で実現されている。
それらはしばしば異なるタスクと見なされ、特殊なモデルによって取り組まれる。
本研究は,多モーダルなプロンプト,テキストおよび視覚トークンのインターリーブにより,ロボット操作タスクの幅広い範囲を表現できることを示唆する。
我々は,これらのプロンプトを処理し,自己回帰的に運動行動を出力するトランスフォーマリストロボットエージェントvimaを設計した。
VIMAを訓練し評価するために,数千の手続き的に生成されるテーブルトップタスクにマルチモーダルプロンプト,600K以上の模倣学習専門トラジェクトリ,体系的一般化のための4レベル評価プロトコルを備えた新しいシミュレーションベンチマークを開発した。
VIMAは、モデルキャパシティとデータサイズの両方において、強力なスケーラビリティを実現する。
従来のSOTA法では、同じトレーニングデータから最大2.9\times$タスク成功率で最強のゼロショット一般化設定を上回ります。
10\times$のトレーニングデータでは、vimaは依然として上位のライバルのアプローチよりも2.7\times$が優れている。
私たちはhttps://vimalabs.github.ioで、すべてのコード、事前訓練されたモデル、データセット、シミュレーションベンチマークをオープンソース化しました。
関連論文リスト
- Robo-MUTUAL: Robotic Multimodal Task Specification via Unimodal Learning [35.42091835421386]
マルチモーダルタスク仕様はロボットの性能向上に不可欠である。
実データに豊富な一元的命令を活用することで,ロボットにマルチモーダルタスク仕様の学習を効果的に教えることができることを示す。
論文 参考訳(メタデータ) (2024-10-02T13:23:02Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning [50.99807031490589]
LLARVAは,ロボット学習タスク,シナリオ,環境を統一するための,新しい指導指導法で訓練されたモデルである。
我々は,Open X-Embodimentデータセットから8.5Mの画像-視覚的トレースペアを生成し,モデルを事前学習する。
実験によって強い性能が得られ、LLARVAは現代のいくつかのベースラインと比較してよく機能することを示した。
論文 参考訳(メタデータ) (2024-06-17T17:55:29Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。
このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。
マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions
with Large Language Model [63.66204449776262]
Instruct2Actは、ロボット操作タスクのシーケンシャルアクションにマルチモーダル命令をマッピングするフレームワークである。
我々のアプローチは、様々な命令のモダリティや入力タイプを調節する上で、調整可能で柔軟なものである。
我々のゼロショット法は、いくつかのタスクにおいて、最先端の学習ベースのポリシーよりも優れていた。
論文 参考訳(メタデータ) (2023-05-18T17:59:49Z) - Instruction-Following Agents with Multimodal Transformer [95.70039658112873]
本稿では,視覚環境下での指示追従課題をロボットが解くための,シンプルで効果的なモデルを提案する。
本手法は,視覚観察と言語指示を符号化したマルチモーダルトランスフォーマーからなる。
この統一型トランスモデルは, シングルタスクとマルチタスクの両方で, 最先端のトレーニング済みあるいは訓練済みのスクラッチ手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-24T17:46:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。