Fugu-MT 論文翻訳(概要): Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning

論文の概要: Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning

arxiv url: http://arxiv.org/abs/2310.09676v2
Date: Tue, 28 May 2024 01:33:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-30 04:17:08.425302
Title: Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning
Title（参考訳）: プレトレーニングとマルチタスクファインチューニングによるマルチモーダルプロンプトによるマスタリングロボット操作
Authors: Jiachen Li, Qiaozi Gao, Michael Johnston, Xiaofeng Gao, Xuehai He, Suhaila Shakiah, Hangjie Shi, Reza Ghanadan, William Yang Wang,
Abstract要約: 我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
参考スコア（独自算出の注目度）: 49.92517970237088
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Prompt-based learning has been demonstrated as a compelling paradigm contributing to large language models' tremendous success (LLMs). Inspired by their success in language tasks, existing research has leveraged LLMs in embodied instruction following and task planning. In this work, we tackle the problem of training a robot to understand multimodal prompts, interleaving vision signals with text descriptions. This type of task poses a major challenge to robots' capability to understand the interconnection and complementarity between vision and language signals. In this work, we introduce an effective framework that learns a policy to perform robot manipulation with multimodal prompts from multi-task expert trajectories. Our methods consist of a two-stage training pipeline that performs inverse dynamics pretraining and multi-task finetuning. To facilitate multimodal understanding, we design our multimodal prompt encoder by augmenting a pretrained LM with a residual connection to the visual input and model the dependencies among action dimensions. Empirically, we evaluate the efficacy of our method on the VIMA-BENCH and establish a new state-of-the-art (10% improvement in success rate). Moreover, we demonstrate that our model exhibits remarkable in-context learning ability. Project page: \url{https://midas-icml.github.io/}.
Abstract（参考訳）: プロンプトに基づく学習は、大規模言語モデルの素晴らしい成功(LLM)に寄与する魅力的なパラダイムとして実証されてきた。言語タスクの成功に触発されて、既存の研究はLLMを具体的指導とタスクプランニングに活用してきた。本研究では,ロボットにマルチモーダルなプロンプトを理解し,視覚信号にテキスト記述を組み込むことを課題とする。このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。本研究では,マルチタスクの専門家によるマルチモーダルプロンプトによるロボット操作のポリシーを学習する効果的なフレームワークを提案する。本手法は,逆ダイナミクス事前学習とマルチタスク微調整を行う2段階の訓練パイプラインから構成される。マルチモーダル理解を容易にするために,事前学習したLMを視覚入力に残差で拡張し,動作次元間の依存性をモデル化してマルチモーダルプロンプトエンコーダを設計する。実験により,本手法のVIMA-BENCHに対する有効性を評価し,新たな最先端(10%の成功率向上)を確立した。さらに,本モデルはテキスト内学習能力に優れることを示した。プロジェクトページ: \url{https://midas-icml.github.io/}。

関連論文リスト

Few-Shot Vision-Language Action-Incremental Policy Learning [55.07841353049953]
トランスフォーマーに基づくロボット操作手法は,多視点空間表現と言語命令を用いてロボットの運動軌跡を学習する。既存のメソッドには、いくつかのデモだけで新しいタスクを継続的に学習する能力がない。我々はこれらの問題に対処するタスク-prOmpt graPh evolutIon poliCy (TOPIC) を開発した。
論文参考訳（メタデータ） (2025-04-22T01:30:47Z)
ChatVLA: Unified Multimodal Understanding and Robot Control with Vision-Language-Action Model [21.844214660424175]
ChatVLAは、初期制御熟達後のマルチモーダルデータを段階的に統合するフェーズアライメントトレーニングと、タスク干渉を最小限に抑えるMixture-of-Expertsアーキテクチャを特徴とする、新しいフレームワークである。 ChatVLAは、視覚的問合せデータセット上での競合性能を示し、マルチモーダル理解ベンチマークにおける最先端のビジョン言語アクション(VLA)メソッドを大幅に上回っている。本研究は,ロバストなマルチモーダル理解と効果的なロボット制御を実現するための統合フレームワークの可能性を明らかにするものである。
論文参考訳（メタデータ） (2025-02-20T10:16:18Z)
Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment [58.94611347128066]
タスク選好最適化(TPO)は、典型的なきめ細かい視覚的タスクから派生した微分可能なタスク選好を利用する新しい手法である。トレーニング中にリッチなビジュアルラベルを活用することで、TPOはMLLMのマルチモーダル能力とタスク固有のパフォーマンスを大幅に向上させる。 VideoChatとLLaVAによるこのアプローチのインスタンス化は、ベースラインモデルと比較して、総合的に14.6%のマルチモーダル性能の向上を示している。
論文参考訳（メタデータ） (2024-12-26T18:56:05Z)
TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文参考訳（メタデータ） (2024-10-14T13:35:47Z)
Robo-MUTUAL: Robotic Multimodal Task Specification via Unimodal Learning [35.42091835421386]
マルチモーダルタスク仕様はロボットの性能向上に不可欠である。実データに豊富な一元的命令を活用することで,ロボットにマルチモーダルタスク仕様の学習を効果的に教えることができることを示す。
論文参考訳（メタデータ） (2024-10-02T13:23:02Z)
LIMT: Language-Informed Multi-Task Visual World Models [6.128332310539627]
マルチタスク強化学習は、サンプルの複雑さの増加と、潜在的に矛盾するタスクの目的のため、非常に難しい。本稿では,事前学習した言語モデルを利用して意味のあるタスク表現を抽出し,マルチタスクのビジュアルワールドモデルを学習する手法を提案する。本結果は,世界モデルにおける言語駆動型タスク表現の利点と,より一般的なモデル自由パラダイムに対するモデルベースマルチタスク学習の明確な利点を強調した。
論文参考訳（メタデータ） (2024-07-18T12:40:58Z)
LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning [50.99807031490589]
LLARVAは,ロボット学習タスク,シナリオ,環境を統一するための,新しい指導指導法で訓練されたモデルである。我々は,Open X-Embodimentデータセットから8.5Mの画像-視覚的トレースペアを生成し,モデルを事前学習する。実験によって強い性能が得られ、LLARVAは現代のいくつかのベースラインと比較してよく機能することを示した。
論文参考訳（メタデータ） (2024-06-17T17:55:29Z)
NoteLLM-2: Multimodal Large Representation Models for Recommendation [60.17448025069594]
マルチモーダルなアイテム・ツー・イテムレコメンデーションにおけるマルチモーダル表現を強化するための大規模言語モデルの可能性について検討する。 1つの実現可能な方法は、表現タスクのためにMLLM(Multimodal Large Language Models)を転送することである。マルチモーダル表現に特化して設計された新しいトレーニングフレームワークNoteLLM-2を提案する。
論文参考訳（メタデータ） (2024-05-27T03:24:01Z)
Delving into Multi-modal Multi-task Foundation Models for Road Scene Understanding: From Learning Paradigm Perspectives [56.2139730920855]
本稿では,道路シーンに特化して設計されたMM-VUFMの系統解析について述べる。本研究の目的は,タスク特化モデル,統合マルチモーダルモデル,統合マルチタスクモデル,基礎モデル推進技術など,共通プラクティスの包括的概要を提供することである。我々は、クローズドループ駆動システム、解釈可能性、エンボディドドライブエージェント、世界モデルなど、重要な課題と今後のトレンドに関する洞察を提供する。
論文参考訳（メタデータ） (2024-02-05T12:47:09Z)
Expanding Frozen Vision-Language Models without Retraining: Towards Improved Robot Perception [0.0]
視覚言語モデル(VLM)は、視覚的質問応答と推論タスクにおいて強力な能力を示している。本稿では,異なるモダリティの埋め込み空間を視覚埋め込み空間に整列させる手法を示す。複数モードを入力として使用すると、VLMのシーン理解が向上し、様々なタスクにおける全体的なパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2023-08-31T06:53:55Z)
Chat with the Environment: Interactive Multimodal Perception Using Large Language Models [19.623070762485494]
大型言語モデル(LLM)は、数発のロボット計画において顕著な推論能力を示している。本研究は,LLMがマルチモーダル環境下での対話型ロボットの動作を制御し,高レベルな計画と推論能力を提供することを示す。
論文参考訳（メタデータ） (2023-03-14T23:01:27Z)
VIMA: General Robot Manipulation with Multimodal Prompts [82.01214865117637]
ロボット操作タスクの幅広い範囲をマルチモーダルプロンプトで表現できることを示す。我々は,数千の手続き的に生成されたテーブルトップタスクからなる新しいシミュレーションベンチマークを開発した。我々は、これらのプロンプトを処理し、自動回帰的に運動動作を出力するトランスフォーマーベースのロボットエージェントVIMAを設計する。
論文参考訳（メタデータ） (2022-10-06T17:50:11Z)
Multi-Task Learning for Visual Scene Understanding [7.191593674138455]
この論文はコンピュータビジョンの文脈におけるマルチタスク学習に関するものである。マルチタスク学習の重要な側面に対処するいくつかの手法を提案する。その結果,マルチタスク学習の最先端にいくつかの進歩が見られた。
論文参考訳（メタデータ） (2022-03-28T16:57:58Z)
Unified Multimodal Pre-training and Prompt-based Tuning for Vision-Language Understanding and Generation [86.26522210882699]
視覚言語理解と生成のための統一型マルチモーダル事前学習を提案する。提案したUniVLは、理解タスクと生成タスクの両方を扱うことができる。実験の結果,同じモデルを用いた場合,理解タスクと生成タスクとの間にはトレードオフがあることが判明した。
論文参考訳（メタデータ） (2021-12-10T14:59:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。