Fugu-MT 論文翻訳(概要): MP5: A Multi-modal Open-ended Embodied System in Minecraft via Active Perception

論文の概要: MP5: A Multi-modal Open-ended Embodied System in Minecraft via Active Perception

arxiv url: http://arxiv.org/abs/2312.07472v3
Date: Mon, 4 Mar 2024 17:41:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-07 01:18:58.197348
Title: MP5: A Multi-modal Open-ended Embodied System in Minecraft via Active Perception
Title（参考訳）: MP5: アクティブ・パーセプションによるMinecraftのマルチモーダルなオープンエンド・エボダイドシステム
Authors: Yiran Qin, Enshen Zhou, Qichang Liu, Zhenfei Yin, Lu Sheng, Ruimao Zhang, Yu Qiao, Jing Shao
Abstract要約: MP5は、Minecraftシミュレーター上に構築された、オープンなマルチモーダルエンボディシステムである。実現可能なサブオブジェクトを分解し、洗練された状況対応プランを設計し、実施可能なアクション制御を実行する。
参考スコア（独自算出の注目度）: 55.496649750900524
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: It is a long-lasting goal to design an embodied system that can solve long-horizon open-world tasks in human-like ways. However, existing approaches usually struggle with compound difficulties caused by the logic-aware decomposition and context-aware execution of these tasks. To this end, we introduce MP5, an open-ended multimodal embodied system built upon the challenging Minecraft simulator, which can decompose feasible sub-objectives, design sophisticated situation-aware plans, and perform embodied action control, with frequent communication with a goal-conditioned active perception scheme. Specifically, MP5 is developed on top of recent advances in Multimodal Large Language Models (MLLMs), and the system is modulated into functional modules that can be scheduled and collaborated to ultimately solve pre-defined context- and process-dependent tasks. Extensive experiments prove that MP5 can achieve a 22% success rate on difficult process-dependent tasks and a 91% success rate on tasks that heavily depend on the context. Moreover, MP5 exhibits a remarkable ability to address many open-ended tasks that are entirely novel.
Abstract（参考訳）: 人間のような方法で、長期のオープンワールドタスクを解決できるエンボディシステムを設計することは、長年の目標である。しかし、既存のアプローチは通常、これらのタスクの論理的分解と文脈的実行によって引き起こされる複雑な困難に悩まされる。この目的のために我々は,課題のあるMinecraftシミュレータ上に構築されたオープンエンドマルチモーダル・エンボディドシステムMP5を紹介した。これは,実現可能なサブオブジェクトを分解し,高度な状況認識計画を作成し,目標条件付き能動認識スキームとの頻繁な通信により実施する。具体的には、MP5はMLLM(Multimodal Large Language Models)の最近の進歩の上に開発されており、システムはスケジュールや協調が可能な機能モジュールに変調され、最終的に定義済みのコンテキスト依存タスクとプロセス依存タスクを解決する。大規模な実験により、MP5は困難なプロセス依存タスクで22%の成功率、コンテキストに大きく依存するタスクで91%の成功率を達成した。さらに、MP5は、全く新しい多くのオープンエンドタスクに対処する驚くべき能力を示す。

関連論文リスト

REMAC: Self-Reflective and Self-Evolving Multi-Agent Collaboration for Long-Horizon Robot Manipulation [57.628771707989166]
本稿では,ReMACと呼ばれる適応型マルチエージェント計画フレームワークを提案する。 ReMACには2つの重要なモジュールが組み込まれており、ループ内で事前条件と後条件チェックを実行し、進捗と計画の洗練を評価する。
論文参考訳（メタデータ） (2025-03-28T03:51:40Z)
How Do Multimodal Large Language Models Handle Complex Multimodal Reasoning? Placing Them in An Extensible Escape Game [11.721839449847472]
マルチモーダル推論のベンチマークであるMM-Escapeを紹介する。 MM-Escapeは最終タスク完了と同時に中間モデル動作を強調している。大規模な実験により、MLLMはスケールに関係なく、最も単純な部屋の脱出タスクを完了できることが示されている。性能ボトルネックはモデルによって異なり、異なる障害モードとマルチモーダル推論能力の制限が明らかになる。
論文参考訳（メタデータ） (2025-03-13T04:48:43Z)
Multi-Stage Manipulation with Demonstration-Augmented Reward, Policy, and World Model Learning [23.113399772741108]
ロボット操作における長期作業は、強化学習において重要な課題である。視覚入力から効率的に学習するためのフレームワークであるDEMO3を提案する。評価の結果,データ効率は平均40%,特に困難なタスクでは70%向上した。
論文参考訳（メタデータ） (2025-03-03T18:57:08Z)
COHERENT: Collaboration of Heterogeneous Multi-Robot System with Large Language Models [49.24666980374751]
COHERENTは、異種マルチロボットシステムの協調のための新しいLCMベースのタスク計画フレームワークである。提案-実行-フィードバック-調整機構は,個々のロボットに対して動作を分解・割り当てするように設計されている。実験の結果,我々の研究は,成功率と実行効率の面で,従来の手法をはるかに上回っていることが明らかとなった。
論文参考訳（メタデータ） (2024-09-23T15:53:41Z)
QuadrupedGPT: Towards a Versatile Quadruped Agent in Open-ended Worlds [51.05639500325598]
QuadrupedGPTは、幅広い複雑なタスクを、ペットに匹敵する俊敏性でマスターするように設計された汎用エージェントである。我々のエージェントは、大規模マルチモーダルモデル(LMM)を用いて、人間の命令と環境コンテキストを処理する。長期的な目標を実行可能なサブゴールのシーケンスに分解できる問題解決機能を備えている。
論文参考訳（メタデータ） (2024-06-24T12:14:24Z)
MEIA: Multimodal Embodied Perception and Interaction in Unknown Environments [82.67236400004826]
本稿では,自然言語で表現されたハイレベルなタスクを実行可能なアクションのシーケンスに変換するための,MEIA(Multimodal Embodied Interactive Agent)を提案する。 MEMモジュールは、多様な要件とロボットの能力に基づいて、MEIAが実行可能なアクションプランを生成することを可能にする。
論文参考訳（メタデータ） (2024-02-01T02:43:20Z)
Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。 Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文参考訳（メタデータ） (2023-12-20T18:59:58Z)
Projected Task-Specific Layers for Multi-Task Reinforcement Learning [0.0]
マルチタスク強化学習は、家庭や職場のさまざまな操作タスクをロボットがスケールできるようにする。タスク間で情報をうまく共有することでこの課題に対処するには、タスクの基盤となる構造がどの程度うまく捕捉されるかに依存する。
論文参考訳（メタデータ） (2023-09-15T21:42:06Z)
Chat with the Environment: Interactive Multimodal Perception Using Large Language Models [19.623070762485494]
大型言語モデル(LLM)は、数発のロボット計画において顕著な推論能力を示している。本研究は,LLMがマルチモーダル環境下での対話型ロボットの動作を制御し,高レベルな計画と推論能力を提供することを示す。
論文参考訳（メタデータ） (2023-03-14T23:01:27Z)
Multi-Task Learning with Sequence-Conditioned Transporter Networks [67.57293592529517]
シーケンスコンディショニングと重み付きサンプリングのレンズによるマルチタスク学習の実現を目指している。合成タスクを対象とした新しいベンチマークであるMultiRavensを提案する。次に,視覚に基づくエンドツーエンドシステムアーキテクチャであるSequence-Conditioned Transporter Networksを提案する。
論文参考訳（メタデータ） (2021-09-15T21:19:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。