論文の概要: MP5: A Multi-modal Open-ended Embodied System in Minecraft via Active
Perception
- arxiv url: http://arxiv.org/abs/2312.07472v3
- Date: Mon, 4 Mar 2024 17:41:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 01:18:58.197348
- Title: MP5: A Multi-modal Open-ended Embodied System in Minecraft via Active
Perception
- Title(参考訳): MP5: アクティブ・パーセプションによるMinecraftのマルチモーダルなオープンエンド・エボダイドシステム
- Authors: Yiran Qin, Enshen Zhou, Qichang Liu, Zhenfei Yin, Lu Sheng, Ruimao
Zhang, Yu Qiao, Jing Shao
- Abstract要約: MP5は、Minecraftシミュレーター上に構築された、オープンなマルチモーダルエンボディシステムである。
実現可能なサブオブジェクトを分解し、洗練された状況対応プランを設計し、実施可能なアクション制御を実行する。
- 参考スコア(独自算出の注目度): 55.496649750900524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is a long-lasting goal to design an embodied system that can solve
long-horizon open-world tasks in human-like ways. However, existing approaches
usually struggle with compound difficulties caused by the logic-aware
decomposition and context-aware execution of these tasks. To this end, we
introduce MP5, an open-ended multimodal embodied system built upon the
challenging Minecraft simulator, which can decompose feasible sub-objectives,
design sophisticated situation-aware plans, and perform embodied action
control, with frequent communication with a goal-conditioned active perception
scheme. Specifically, MP5 is developed on top of recent advances in Multimodal
Large Language Models (MLLMs), and the system is modulated into functional
modules that can be scheduled and collaborated to ultimately solve pre-defined
context- and process-dependent tasks. Extensive experiments prove that MP5 can
achieve a 22% success rate on difficult process-dependent tasks and a 91%
success rate on tasks that heavily depend on the context. Moreover, MP5
exhibits a remarkable ability to address many open-ended tasks that are
entirely novel.
- Abstract(参考訳): 人間のような方法で、長期のオープンワールドタスクを解決できるエンボディシステムを設計することは、長年の目標である。
しかし、既存のアプローチは通常、これらのタスクの論理的分解と文脈的実行によって引き起こされる複雑な困難に悩まされる。
この目的のために我々は,課題のあるMinecraftシミュレータ上に構築されたオープンエンドマルチモーダル・エンボディドシステムMP5を紹介した。これは,実現可能なサブオブジェクトを分解し,高度な状況認識計画を作成し,目標条件付き能動認識スキームとの頻繁な通信により実施する。
具体的には、MP5はMLLM(Multimodal Large Language Models)の最近の進歩の上に開発されており、システムはスケジュールや協調が可能な機能モジュールに変調され、最終的に定義済みのコンテキスト依存タスクとプロセス依存タスクを解決する。
大規模な実験により、MP5は困難なプロセス依存タスクで22%の成功率、コンテキストに大きく依存するタスクで91%の成功率を達成した。
さらに、MP5は、全く新しい多くのオープンエンドタスクに対処する驚くべき能力を示す。
関連論文リスト
- MEIA: Towards Realistic Multimodal Interaction and Manipulation for Embodied Robots [82.67236400004826]
本稿では,自然言語で表現されたハイレベルなタスクを実行可能なアクションのシーケンスに変換するための,MEIA(Multimodal Embodied Interactive Agent)を提案する。
MEMモジュールは、多様な要件とロボットの能力に基づいて、MEIAが実行可能なアクションプランを生成することを可能にする。
論文 参考訳(メタデータ) (2024-02-01T02:43:20Z) - Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - NOD-TAMP: Multi-Step Manipulation Planning with Neural Object
Descriptors [17.67523831096846]
家庭や工場における複雑な操作作業のためのインテリジェントロボットの開発は依然として困難である。
提案するフレームワークであるNOD-TAMPは、少数の人間のデモンストレーションから短い操作軌跡を抽出する。
NOD特徴を用いてこれらの軌道に適応し、広い長距離タスクを解くために構成する。
論文 参考訳(メタデータ) (2023-11-02T18:26:28Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining
and Multi-task Fine-tuning [51.80266015638394]
マルチタスクの専門家軌道からマルチモーダルプロンプトを用いたロボット操作のポリシーを学習するフレームワークを提案する。
本手法は,逆ダイナミクス事前学習とマルチタスク微調整を行う2段階の訓練パイプラインから構成される。
実験により,本手法のVIMA-BENCHに対する有効性を評価し,新たな最先端(成功率10%向上)を確立した。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - Projected Task-Specific Layers for Multi-Task Reinforcement Learning [0.0]
マルチタスク強化学習は、家庭や職場のさまざまな操作タスクをロボットがスケールできるようにする。
タスク間で情報をうまく共有することでこの課題に対処するには、タスクの基盤となる構造がどの程度うまく捕捉されるかに依存する。
論文 参考訳(メタデータ) (2023-09-15T21:42:06Z) - AlphaBlock: Embodied Finetuning for Vision-Language Reasoning in Robot
Manipulation [50.737355245505334]
本稿では,ロボット操作タスクにおける高レベル認知能力を学習するための新しいフレームワークを提案する。
得られたデータセットAlphaBlockは、多段階のテキストプランとペア観測による35の包括的なハイレベルタスクで構成されている。
論文 参考訳(メタデータ) (2023-05-30T09:54:20Z) - Chat with the Environment: Interactive Multimodal Perception Using Large
Language Models [19.623070762485494]
大型言語モデル(LLM)は、数発のロボット計画において顕著な推論能力を示している。
本研究は,LLMがマルチモーダル環境下での対話型ロボットの動作を制御し,高レベルな計画と推論能力を提供することを示す。
論文 参考訳(メタデータ) (2023-03-14T23:01:27Z) - Multi-Task Learning with Sequence-Conditioned Transporter Networks [67.57293592529517]
シーケンスコンディショニングと重み付きサンプリングのレンズによるマルチタスク学習の実現を目指している。
合成タスクを対象とした新しいベンチマークであるMultiRavensを提案する。
次に,視覚に基づくエンドツーエンドシステムアーキテクチャであるSequence-Conditioned Transporter Networksを提案する。
論文 参考訳(メタデータ) (2021-09-15T21:19:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。