論文の概要: Mastering Robot Manipulation with Multimodal Prompts through Pretraining
and Multi-task Fine-tuning
- arxiv url: http://arxiv.org/abs/2310.09676v1
- Date: Sat, 14 Oct 2023 22:24:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 18:48:45.236665
- Title: Mastering Robot Manipulation with Multimodal Prompts through Pretraining
and Multi-task Fine-tuning
- Title(参考訳): プレトレーニングとマルチタスクファインチューニングによるマルチモーダルプロンプトによるマスタリングロボット操作
- Authors: Jiachen Li, Qiaozi Gao, Michael Johnston, Xiaofeng Gao, Xuehai He,
Suhaila Shakiah, Hangjie Shi, Reza Ghanadan, William Yang Wang
- Abstract要約: マルチタスクの専門家軌道からマルチモーダルプロンプトを用いたロボット操作のポリシーを学習するフレームワークを提案する。
本手法は,逆ダイナミクス事前学習とマルチタスク微調整を行う2段階の訓練パイプラインから構成される。
実験により,本手法のVIMA-BENCHに対する有効性を評価し,新たな最先端(成功率10%向上)を確立した。
- 参考スコア(独自算出の注目度): 51.80266015638394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt-based learning has been demonstrated as a compelling paradigm
contributing to large language models' tremendous success (LLMs). Inspired by
their success in language tasks, existing research has leveraged LLMs in
embodied instruction following and task planning. However, not much attention
has been paid to embodied tasks with multimodal prompts, combining vision
signals with text descriptions. This type of task poses a major challenge to
robots' capability to understand the interconnection and complementarity
between vision and language signals. In this work, we introduce an effective
framework that learns a policy to perform robot manipulation with multimodal
prompts from multi-task expert trajectories. Our methods consist of a two-stage
training pipeline that performs inverse dynamics pretraining and multi-task
finetuning. To facilitate multimodal understanding, we design our multimodal
prompt encoder by augmenting a pretrained LM with a residual connection to the
visual input and model the dependencies among action dimensions. Empirically,
we evaluate the efficacy of our method on the VIMA-BENCH and establish a new
state-of-the-art (10% improvement in success rate). Moreover, we demonstrate
that our model exhibits remarkable in-context learning ability.
- Abstract(参考訳): プロンプトに基づく学習は、大規模言語モデルの素晴らしい成功(LLM)に寄与する魅力的なパラダイムとして実証されてきた。
言語タスクの成功に触発されて、既存の研究はLLMを具体的指導とタスクプランニングに活用してきた。
しかし、視覚信号とテキスト記述を組み合わせたマルチモーダルプロンプトを具現化したタスクにはあまり注意が払われていない。
このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。
本研究では,マルチタスクの専門家軌道からのマルチモーダルプロンプトによるロボット操作のポリシーを学習する効果的なフレームワークを提案する。
本手法は,逆ダイナミクス事前学習とマルチタスク微調整を行う2段階トレーニングパイプラインからなる。
マルチモーダル理解を容易にするために,事前学習したlmを視覚入力への残留接続で拡張し,動作次元間の依存関係をモデル化し,マルチモーダルプロンプトエンコーダの設計を行う。
実験では,vima-bench法の有効性を評価し,新たな最先端(成功率10%向上)を確立した。
さらに,本モデルはテキスト内学習能力に優れることを示した。
関連論文リスト
- ChatVLA: Unified Multimodal Understanding and Robot Control with Vision-Language-Action Model [21.844214660424175]
ChatVLAは、初期制御熟達後のマルチモーダルデータを段階的に統合するフェーズアライメントトレーニングと、タスク干渉を最小限に抑えるMixture-of-Expertsアーキテクチャを特徴とする、新しいフレームワークである。
ChatVLAは、視覚的問合せデータセット上での競合性能を示し、マルチモーダル理解ベンチマークにおける最先端のビジョン言語アクション(VLA)メソッドを大幅に上回っている。
本研究は,ロバストなマルチモーダル理解と効果的なロボット制御を実現するための統合フレームワークの可能性を明らかにするものである。
論文 参考訳(メタデータ) (2025-02-20T10:16:18Z) - Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment [58.94611347128066]
タスク選好最適化(TPO)は、典型的なきめ細かい視覚的タスクから派生した微分可能なタスク選好を利用する新しい手法である。
トレーニング中にリッチなビジュアルラベルを活用することで、TPOはMLLMのマルチモーダル能力とタスク固有のパフォーマンスを大幅に向上させる。
VideoChatとLLaVAによるこのアプローチのインスタンス化は、ベースラインモデルと比較して、総合的に14.6%のマルチモーダル性能の向上を示している。
論文 参考訳(メタデータ) (2024-12-26T18:56:05Z) - Robo-MUTUAL: Robotic Multimodal Task Specification via Unimodal Learning [35.42091835421386]
マルチモーダルタスク仕様はロボットの性能向上に不可欠である。
実データに豊富な一元的命令を活用することで,ロボットにマルチモーダルタスク仕様の学習を効果的に教えることができることを示す。
論文 参考訳(メタデータ) (2024-10-02T13:23:02Z) - LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning [50.99807031490589]
LLARVAは,ロボット学習タスク,シナリオ,環境を統一するための,新しい指導指導法で訓練されたモデルである。
我々は,Open X-Embodimentデータセットから8.5Mの画像-視覚的トレースペアを生成し,モデルを事前学習する。
実験によって強い性能が得られ、LLARVAは現代のいくつかのベースラインと比較してよく機能することを示した。
論文 参考訳(メタデータ) (2024-06-17T17:55:29Z) - Delving into Multi-modal Multi-task Foundation Models for Road Scene Understanding: From Learning Paradigm Perspectives [56.2139730920855]
本稿では,道路シーンに特化して設計されたMM-VUFMの系統解析について述べる。
本研究の目的は,タスク特化モデル,統合マルチモーダルモデル,統合マルチタスクモデル,基礎モデル推進技術など,共通プラクティスの包括的概要を提供することである。
我々は、クローズドループ駆動システム、解釈可能性、エンボディドドライブエージェント、世界モデルなど、重要な課題と今後のトレンドに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-02-05T12:47:09Z) - Expanding Frozen Vision-Language Models without Retraining: Towards
Improved Robot Perception [0.0]
視覚言語モデル(VLM)は、視覚的質問応答と推論タスクにおいて強力な能力を示している。
本稿では,異なるモダリティの埋め込み空間を視覚埋め込み空間に整列させる手法を示す。
複数モードを入力として使用すると、VLMのシーン理解が向上し、様々なタスクにおける全体的なパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-08-31T06:53:55Z) - Chat with the Environment: Interactive Multimodal Perception Using Large
Language Models [19.623070762485494]
大型言語モデル(LLM)は、数発のロボット計画において顕著な推論能力を示している。
本研究は,LLMがマルチモーダル環境下での対話型ロボットの動作を制御し,高レベルな計画と推論能力を提供することを示す。
論文 参考訳(メタデータ) (2023-03-14T23:01:27Z) - VIMA: General Robot Manipulation with Multimodal Prompts [82.01214865117637]
ロボット操作タスクの幅広い範囲をマルチモーダルプロンプトで表現できることを示す。
我々は,数千の手続き的に生成されたテーブルトップタスクからなる新しいシミュレーションベンチマークを開発した。
我々は、これらのプロンプトを処理し、自動回帰的に運動動作を出力するトランスフォーマーベースのロボットエージェントVIMAを設計する。
論文 参考訳(メタデータ) (2022-10-06T17:50:11Z) - Multi-Task Learning for Visual Scene Understanding [7.191593674138455]
この論文はコンピュータビジョンの文脈におけるマルチタスク学習に関するものである。
マルチタスク学習の重要な側面に対処するいくつかの手法を提案する。
その結果,マルチタスク学習の最先端にいくつかの進歩が見られた。
論文 参考訳(メタデータ) (2022-03-28T16:57:58Z) - Unified Multimodal Pre-training and Prompt-based Tuning for
Vision-Language Understanding and Generation [86.26522210882699]
視覚言語理解と生成のための統一型マルチモーダル事前学習を提案する。
提案したUniVLは、理解タスクと生成タスクの両方を扱うことができる。
実験の結果,同じモデルを用いた場合,理解タスクと生成タスクとの間にはトレードオフがあることが判明した。
論文 参考訳(メタデータ) (2021-12-10T14:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。