論文の概要: VIMA: General Robot Manipulation with Multimodal Prompts
- arxiv url: http://arxiv.org/abs/2210.03094v2
- Date: Sun, 28 May 2023 07:32:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 03:22:30.918461
- Title: VIMA: General Robot Manipulation with Multimodal Prompts
- Title(参考訳): VIMA:マルチモーダルプロンプトによる汎用ロボット操作
- Authors: Yunfan Jiang, Agrim Gupta, Zichen Zhang, Guanzhi Wang, Yongqiang Dou,
Yanjun Chen, Li Fei-Fei, Anima Anandkumar, Yuke Zhu, Linxi Fan
- Abstract要約: ロボット操作タスクの幅広い範囲をマルチモーダルプロンプトで表現できることを示す。
我々は,数千の手続き的に生成されたテーブルトップタスクからなる新しいシミュレーションベンチマークを開発した。
我々は、これらのプロンプトを処理し、自動回帰的に運動動作を出力するトランスフォーマーベースのロボットエージェントVIMAを設計する。
- 参考スコア(独自算出の注目度): 82.01214865117637
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt-based learning has emerged as a successful paradigm in natural
language processing, where a single general-purpose language model can be
instructed to perform any task specified by input prompts. Yet task
specification in robotics comes in various forms, such as imitating one-shot
demonstrations, following language instructions, and reaching visual goals.
They are often considered different tasks and tackled by specialized models. We
show that a wide spectrum of robot manipulation tasks can be expressed with
multimodal prompts, interleaving textual and visual tokens. Accordingly, we
develop a new simulation benchmark that consists of thousands of
procedurally-generated tabletop tasks with multimodal prompts, 600K+ expert
trajectories for imitation learning, and a four-level evaluation protocol for
systematic generalization. We design a transformer-based robot agent, VIMA,
that processes these prompts and outputs motor actions autoregressively. VIMA
features a recipe that achieves strong model scalability and data efficiency.
It outperforms alternative designs in the hardest zero-shot generalization
setting by up to $2.9\times$ task success rate given the same training data.
With $10\times$ less training data, VIMA still performs $2.7\times$ better than
the best competing variant. Code and video demos are available at
https://vimalabs.github.io/
- Abstract(参考訳): プロンプトに基づく学習は自然言語処理において成功し、入力プロンプトによって指定されたタスクを実行するために単一の汎用言語モデルを指示することができる。
しかしロボティクスにおけるタスク仕様は、ワンショットデモの模倣、言語指示の追従、視覚目標の達成など、さまざまな形態で実現されている。
それらはしばしば異なるタスクと見なされ、特殊なモデルによって取り組まれる。
ロボット操作タスクの幅広い範囲を多モーダルなプロンプトで表現し,テキストトークンと視覚トークンを介在することを示す。
そこで本研究では,複数モーダルプロンプトを持つ数千のプロシージャ生成テーブルトップタスクと,模倣学習のための600K以上の専門トラジェクトリと,体系的一般化のための4段階評価プロトコルからなる新しいシミュレーションベンチマークを開発した。
我々は、これらのプロンプトを処理するトランスフォーマーベースのロボットエージェントVIMAを設計し、自動回帰動作を出力する。
VIMAは強力なモデルスケーラビリティとデータ効率を実現するレシピを備えている。
これは、同じトレーニングデータに対して最大2.9\times$タスク成功率で、最も難しいゼロショット一般化設定で代替設計を上回っている。
10\times$のトレーニングデータでは、vimaは最高の競合製品よりも2.7\times$が良い。
コードとビデオのデモはhttps://vimalabs.github.io/で見ることができる。
関連論文リスト
- Robo-MUTUAL: Robotic Multimodal Task Specification via Unimodal Learning [35.42091835421386]
マルチモーダルタスク仕様はロボットの性能向上に不可欠である。
実データに豊富な一元的命令を活用することで,ロボットにマルチモーダルタスク仕様の学習を効果的に教えることができることを示す。
論文 参考訳(メタデータ) (2024-10-02T13:23:02Z) - LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning [50.99807031490589]
LLARVAは,ロボット学習タスク,シナリオ,環境を統一するための,新しい指導指導法で訓練されたモデルである。
我々は,Open X-Embodimentデータセットから8.5Mの画像-視覚的トレースペアを生成し,モデルを事前学習する。
実験によって強い性能が得られ、LLARVAは現代のいくつかのベースラインと比較してよく機能することを示した。
論文 参考訳(メタデータ) (2024-06-17T17:55:29Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。
このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。
マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions
with Large Language Model [63.66204449776262]
Instruct2Actは、ロボット操作タスクのシーケンシャルアクションにマルチモーダル命令をマッピングするフレームワークである。
我々のアプローチは、様々な命令のモダリティや入力タイプを調節する上で、調整可能で柔軟なものである。
我々のゼロショット法は、いくつかのタスクにおいて、最先端の学習ベースのポリシーよりも優れていた。
論文 参考訳(メタデータ) (2023-05-18T17:59:49Z) - PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。
我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。
562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文 参考訳(メタデータ) (2023-03-06T18:58:06Z) - Instruction-Following Agents with Multimodal Transformer [95.70039658112873]
本稿では,視覚環境下での指示追従課題をロボットが解くための,シンプルで効果的なモデルを提案する。
本手法は,視覚観察と言語指示を符号化したマルチモーダルトランスフォーマーからなる。
この統一型トランスモデルは, シングルタスクとマルチタスクの両方で, 最先端のトレーニング済みあるいは訓練済みのスクラッチ手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-24T17:46:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。