論文の概要: MP5: A Multi-modal Open-ended Embodied System in Minecraft via Active Perception
- arxiv url: http://arxiv.org/abs/2312.07472v4
- Date: Tue, 26 Mar 2024 18:08:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 22:23:24.241492
- Title: MP5: A Multi-modal Open-ended Embodied System in Minecraft via Active Perception
- Title(参考訳): MP5: アクティブ・パーセプションによるMinecraftのマルチモーダルなオープンエンド・エボダイドシステム
- Authors: Yiran Qin, Enshen Zhou, Qichang Liu, Zhenfei Yin, Lu Sheng, Ruimao Zhang, Yu Qiao, Jing Shao,
- Abstract要約: MP5は、Minecraftシミュレーター上に構築された、オープンなマルチモーダルエンボディシステムである。
実現可能なサブオブジェクトを分解し、洗練された状況対応プランを設計し、実施可能なアクション制御を実行する。
- 参考スコア(独自算出の注目度): 53.20509532671891
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is a long-lasting goal to design an embodied system that can solve long-horizon open-world tasks in human-like ways. However, existing approaches usually struggle with compound difficulties caused by the logic-aware decomposition and context-aware execution of these tasks. To this end, we introduce MP5, an open-ended multimodal embodied system built upon the challenging Minecraft simulator, which can decompose feasible sub-objectives, design sophisticated situation-aware plans, and perform embodied action control, with frequent communication with a goal-conditioned active perception scheme. Specifically, MP5 is developed on top of recent advances in Multimodal Large Language Models (MLLMs), and the system is modulated into functional modules that can be scheduled and collaborated to ultimately solve pre-defined context- and process-dependent tasks. Extensive experiments prove that MP5 can achieve a 22% success rate on difficult process-dependent tasks and a 91% success rate on tasks that heavily depend on the context. Moreover, MP5 exhibits a remarkable ability to address many open-ended tasks that are entirely novel.
- Abstract(参考訳): 人間のような方法で、長期のオープンワールドタスクを解決できるエンボディシステムを設計することは、長年の目標である。
しかし、既存のアプローチは通常、これらのタスクの論理的分解と文脈的実行によって引き起こされる複雑な困難に悩まされる。
この目的のために我々は,課題のあるMinecraftシミュレータ上に構築されたオープンエンドマルチモーダル・エンボディドシステムMP5を紹介した。これは,実現可能なサブオブジェクトを分解し,高度な状況認識計画を作成し,目標条件付き能動認識スキームとの頻繁な通信により実施する。
具体的には、MP5はMLLM(Multimodal Large Language Models)の最近の進歩の上に開発されており、システムはスケジュールや協調が可能な機能モジュールに変調され、最終的に定義済みのコンテキスト依存タスクとプロセス依存タスクを解決する。
大規模な実験により、MP5は困難なプロセス依存タスクで22%の成功率、コンテキストに大きく依存するタスクで91%の成功率を達成することが証明された。
さらに、MP5は、全く新しい多くのオープンエンドタスクに対処する驚くべき能力を示す。
関連論文リスト
- QuadrupedGPT: Towards a Versatile Quadruped Agent in Open-ended Worlds [51.05639500325598]
QuadrupedGPTは、幅広い複雑なタスクを、ペットに匹敵する俊敏性でマスターするように設計された汎用エージェントである。
我々のエージェントは、大規模マルチモーダルモデル(LMM)を用いて、人間の命令と環境コンテキストを処理する。
長期的な目標を実行可能なサブゴールのシーケンスに分解できる問題解決機能を備えている。
論文 参考訳(メタデータ) (2024-06-24T12:14:24Z) - TDAG: A Multi-Agent Framework based on Dynamic Task Decomposition and
Agent Generation [45.028795422801764]
動的タスク分解・エージェント生成(TDAG)に基づくマルチエージェントフレームワークを提案する。
このフレームワークは複雑なタスクを小さなサブタスクに動的に分解し、それぞれが特定の生成されたサブエージェントに割り当てる。
ItineraryBenchは、さまざまな複雑さのタスク間でのメモリ、計画、ツール使用量のエージェントの能力を評価するように設計されている。
論文 参考訳(メタデータ) (2024-02-15T18:27:37Z) - MEIA: Towards Realistic Multimodal Interaction and Manipulation for Embodied Robots [82.67236400004826]
本稿では,自然言語で表現されたハイレベルなタスクを実行可能なアクションのシーケンスに変換するための,MEIA(Multimodal Embodied Interactive Agent)を提案する。
MEMモジュールは、多様な要件とロボットの能力に基づいて、MEIAが実行可能なアクションプランを生成することを可能にする。
論文 参考訳(メタデータ) (2024-02-01T02:43:20Z) - Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。
このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。
マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - Projected Task-Specific Layers for Multi-Task Reinforcement Learning [0.0]
マルチタスク強化学習は、家庭や職場のさまざまな操作タスクをロボットがスケールできるようにする。
タスク間で情報をうまく共有することでこの課題に対処するには、タスクの基盤となる構造がどの程度うまく捕捉されるかに依存する。
論文 参考訳(メタデータ) (2023-09-15T21:42:06Z) - Chat with the Environment: Interactive Multimodal Perception Using Large
Language Models [19.623070762485494]
大型言語モデル(LLM)は、数発のロボット計画において顕著な推論能力を示している。
本研究は,LLMがマルチモーダル環境下での対話型ロボットの動作を制御し,高レベルな計画と推論能力を提供することを示す。
論文 参考訳(メタデータ) (2023-03-14T23:01:27Z) - Multi-Task Learning with Sequence-Conditioned Transporter Networks [67.57293592529517]
シーケンスコンディショニングと重み付きサンプリングのレンズによるマルチタスク学習の実現を目指している。
合成タスクを対象とした新しいベンチマークであるMultiRavensを提案する。
次に,視覚に基づくエンドツーエンドシステムアーキテクチャであるSequence-Conditioned Transporter Networksを提案する。
論文 参考訳(メタデータ) (2021-09-15T21:19:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。