論文の概要: Optimus-2: Multimodal Minecraft Agent with Goal-Observation-Action Conditioned Policy
- arxiv url: http://arxiv.org/abs/2502.19902v1
- Date: Thu, 27 Feb 2025 09:18:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:58:00.012862
- Title: Optimus-2: Multimodal Minecraft Agent with Goal-Observation-Action Conditioned Policy
- Title(参考訳): Optimus-2:Goal-Observation-Action Conditioned Policyを用いたマルチモーダルMinecraftエージェント
- Authors: Zaijing Li, Yuquan Xie, Rui Shao, Gongwei Chen, Dongmei Jiang, Liqiang Nie,
- Abstract要約: Optimus-2はMultimodal Large Language Model (MLLM)を組み込んだ新しいMinecraftエージェントである。
GOAPには、各段階における観察と行動の間の因果関係をモデル化するアクション誘導行動が含まれている。
8つのアトミックタスクにわたる25,000のビデオを含み、約30万のゴール-オブザーバ-アクションペアを提供する、高品質なMinecraftのゴール-オブザーバ-アクションデータセットを紹介します。
- 参考スコア(独自算出の注目度): 50.13429055093534
- License:
- Abstract: Building an agent that can mimic human behavior patterns to accomplish various open-world tasks is a long-term goal. To enable agents to effectively learn behavioral patterns across diverse tasks, a key challenge lies in modeling the intricate relationships among observations, actions, and language. To this end, we propose Optimus-2, a novel Minecraft agent that incorporates a Multimodal Large Language Model (MLLM) for high-level planning, alongside a Goal-Observation-Action Conditioned Policy (GOAP) for low-level control. GOAP contains (1) an Action-guided Behavior Encoder that models causal relationships between observations and actions at each timestep, then dynamically interacts with the historical observation-action sequence, consolidating it into fixed-length behavior tokens, and (2) an MLLM that aligns behavior tokens with open-ended language instructions to predict actions auto-regressively. Moreover, we introduce a high-quality Minecraft Goal-Observation-Action (MGOA)} dataset, which contains 25,000 videos across 8 atomic tasks, providing about 30M goal-observation-action pairs. The automated construction method, along with the MGOA dataset, can contribute to the community's efforts to train Minecraft agents. Extensive experimental results demonstrate that Optimus-2 exhibits superior performance across atomic tasks, long-horizon tasks, and open-ended instruction tasks in Minecraft.
- Abstract(参考訳): 人間の行動パターンを模倣して様々なオープンワールドタスクを達成できるエージェントを構築することは、長期的な目標である。
エージェントが多様なタスクにわたる行動パターンを効果的に学習できるようにするためには、観察、行動、言語の間の複雑な関係をモデル化することが重要な課題である。
そこで我々は,マルチモーダル大規模言語モデル(MLLM)を高次計画に組み込んだ新しいMinecraftエージェントであるOptimus-2と,低次制御のためのゴールオブザーバ-アクション条件付きポリシー(GOAP)を提案する。
GOAPは,(1)観察と行動の各段階における因果関係をモデル化し,次いで歴史的観察行動シーケンスと動的に相互作用し,それを固定長の行動トークンに統合する行動誘導行動エンコーダと,(2)行動トークンをオープンエンド言語命令と整合させて自己回帰的に行動を予測するMLLMを含む。
さらに,8つのアトミックタスクをまたいだ25,000のビデオを含む高品質のMinecraft Goal-Observation-Action(MGOA)データセットを導入し,約30万の目標-観測-アクションペアを提供する。
MGOAデータセットとともに自動構築手法は、Minecraftエージェントのトレーニングにコミュニティの努力に貢献することができる。
実験結果から,オプティマス2は,アトミックタスク,長距離タスク,マインクラフトにおけるオープンエンドインストラクションタスクにおいて,優れた性能を示すことが示された。
関連論文リスト
- ActPlan-1K: Benchmarking the Procedural Planning Ability of Visual Language Models in Household Activities [42.17465719784928]
ActPlan-1KはChatGPTと家庭用アクティビティシミュレータiGibson2に基づいて構築されたマルチモーダル計画ベンチマークである。
現在のVLMは、正常な活動と反現実的な活動の両方のために、人間レベルの手続き的な計画を作成するのに苦戦していることが判明した。
論文 参考訳(メタデータ) (2024-10-04T20:21:40Z) - LaMMA-P: Generalizable Multi-Agent Long-Horizon Task Allocation and Planning with LM-Driven PDDL Planner [9.044939946653002]
言語モデル(LM)は、自然言語を理解する強力な能力を有しており、人間の指示を単純なロボットタスクの詳細な計画に変換するのに効果的である。
本稿では,言語モデル駆動型多エージェントPDDLプランナ(LaMMA-P)を提案する。
LaMMA-Pは、LMの推論能力と従来の探索プランナーの強みを統合し、高い成功率と効率を達成する。
論文 参考訳(メタデータ) (2024-09-30T17:58:18Z) - MEIA: Multimodal Embodied Perception and Interaction in Unknown Environments [82.67236400004826]
本稿では,自然言語で表現されたハイレベルなタスクを実行可能なアクションのシーケンスに変換するための,MEIA(Multimodal Embodied Interactive Agent)を提案する。
MEMモジュールは、多様な要件とロボットの能力に基づいて、MEIAが実行可能なアクションプランを生成することを可能にする。
論文 参考訳(メタデータ) (2024-02-01T02:43:20Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Towards a Unified Transformer-based Framework for Scene Graph Generation
and Human-object Interaction Detection [116.21529970404653]
本稿では,Transformerアーキテクチャに基づく一段階統一モデルであるSG2HOI+を紹介する。
本手法では,SGGとHOI検出のタスクをシームレスに統一する2つの対話型階層変換器を用いる。
提案手法は最先端のHOI法と比較して競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-03T07:25:57Z) - M2T2: Multi-Task Masked Transformer for Object-centric Pick and Place [44.303123422422246]
M2T2は、散らかったシーンの任意のオブジェクトに対して堅牢に動作する異なるタイプの低レベルのアクションを提供する単一のモデルである。
M2T2は、128Kシーンの大規模な合成データセットで訓練され、実際のロボット上でゼロショットのsim2real転送を実現する。
論文 参考訳(メタデータ) (2023-11-02T01:42:52Z) - Octopus: Embodied Vision-Language Programmer from Environmental Feedback [58.04529328728999]
身体視覚言語モデル(VLM)は多モード認識と推論において大きな進歩を遂げた。
このギャップを埋めるために、我々は、計画と操作を接続する媒体として実行可能なコード生成を使用する、具体化された視覚言語プログラマであるOctopusを紹介した。
Octopusは、1)エージェントの視覚的およびテキスト的タスクの目的を正確に理解し、2)複雑なアクションシーケンスを定式化し、3)実行可能なコードを生成するように設計されている。
論文 参考訳(メタデータ) (2023-10-12T17:59:58Z) - Generalizable Long-Horizon Manipulations with Large Language Models [91.740084601715]
本研究は,Large Language Models (LLMs) の機能を活用して,汎用可能な長距離操作のための原始的なタスク条件を生成するフレームワークを導入する。
我々は,Pybulletに基づくロボット操作タスクスイートを作成し,長期作業評価を行う。
論文 参考訳(メタデータ) (2023-10-03T17:59:46Z) - VoxPoser: Composable 3D Value Maps for Robotic Manipulation with
Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。
我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。
筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文 参考訳(メタデータ) (2023-07-12T07:40:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。