論文の概要: Optimus-3: Towards Generalist Multimodal Minecraft Agents with Scalable Task Experts
- arxiv url: http://arxiv.org/abs/2506.10357v1
- Date: Thu, 12 Jun 2025 05:29:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.583507
- Title: Optimus-3: Towards Generalist Multimodal Minecraft Agents with Scalable Task Experts
- Title(参考訳): Optimus-3: スケーラブルタスクエキスパートによる汎用マルチモーダルMinecraftエージェントを目指して
- Authors: Zaijing Li, Yuquan Xie, Rui Shao, Gongwei Chen, Weili Guan, Dongmei Jiang, Liqiang Nie,
- Abstract要約: Minecraftの汎用エージェントOptimus-3を提案する。
エージェント開発のためのスケーラブルで高品質なトレーニングデータを提供するための知識強化型データ生成パイプラインを提案する。
視覚的多様性に対するエージェントの推論能力を高めるために,マルチモーダル推論強化学習手法を開発した。
- 参考スコア(独自算出の注目度): 54.21319853862452
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, agents based on multimodal large language models (MLLMs) have achieved remarkable progress across various domains. However, building a generalist agent with capabilities such as perception, planning, action, grounding, and reflection in open-world environments like Minecraft remains challenges: insufficient domain-specific data, interference among heterogeneous tasks, and visual diversity in open-world settings. In this paper, we address these challenges through three key contributions. 1) We propose a knowledge-enhanced data generation pipeline to provide scalable and high-quality training data for agent development. 2) To mitigate interference among heterogeneous tasks, we introduce a Mixture-of-Experts (MoE) architecture with task-level routing. 3) We develop a Multimodal Reasoning-Augmented Reinforcement Learning approach to enhance the agent's reasoning ability for visual diversity in Minecraft. Built upon these innovations, we present Optimus-3, a general-purpose agent for Minecraft. Extensive experimental results demonstrate that Optimus-3 surpasses both generalist multimodal large language models and existing state-of-the-art agents across a wide range of tasks in the Minecraft environment. Project page: https://cybertronagent.github.io/Optimus-3.github.io/
- Abstract(参考訳): 近年,MLLM(Multimodal large language model)に基づくエージェントは,様々な領域において顕著な進歩を遂げている。
しかし、Minecraftのようなオープンワールド環境における知覚、計画、アクション、グラウンド、リフレクションなどの能力を備えたジェネラリストエージェントの構築は、ドメイン固有の不十分なデータ、異種タスク間の干渉、オープンワールド設定における視覚的多様性といった課題のままである。
本稿では,3つの重要なコントリビューションを通じて,これらの課題に対処する。
1)エージェント開発のためのスケーラブルで高品質なトレーニングデータを提供する知識強化型データ生成パイプラインを提案する。
2) 不均一なタスク間の干渉を軽減するため,タスクレベルのルーティングを備えたMixture-of-Experts (MoE)アーキテクチャを導入する。
3)Multimodal Reasoning-Augmented Reinforcement Learning(マルチモーダル推論強化学習)アプローチを開発した。
これらのイノベーションに基づいて構築されたOptimus-3は、Minecraftの汎用エージェントである。
大規模な実験結果から,Optimus-3はMinecraft環境における様々なタスクにおいて,汎用マルチモーダル言語モデルと既存の最先端エージェントの両方を超越していることが明らかとなった。
プロジェクトページ: https://cybertronagent.github.io/Optimus-3.github.io/
関連論文リスト
- TeamCraft: A Benchmark for Multi-Modal Multi-Agent Systems in Minecraft [40.419794780178044]
オープンソースのビデオゲームMinecraft上に構築されたマルチモーダルなマルチエージェントベンチマークであるTeamCraftを紹介します。
このベンチマークでは、マルチモーダルプロンプトによって指定された55,000のタスク変種、模倣学習のための手続き的に生成された専門家のデモンストレーション、モデル一般化機能を評価するための慎重に設計されたプロトコルが特徴である。
以上の結果から,既存のモデルでは,新たな目標,シーン,不明なエージェントの数を一般化する上で,大きな課題が続いていることが示唆された。
論文 参考訳(メタデータ) (2024-12-06T18:41:16Z) - Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks [50.13429055093534]
上記の課題に対処するために,ハイブリッドマルチモーダルメモリモジュールを提案する。
知識を階層的指向知識グラフに変換することで,エージェントが世界知識を明示的に表現し,学習することが可能になる。
また、過去の情報を抽象化されたマルチモーダル体験プールにまとめ、エージェントにコンテキスト内学習のための豊富な参照を提供する。
Hybrid Multimodal Memoryモジュールの上に、Optimus-1というマルチモーダルエージェントが、専用の知識誘導プランナーと経験駆動リフレクタで構築されている。
論文 参考訳(メタデータ) (2024-08-07T08:16:32Z) - Odyssey: Empowering Minecraft Agents with Open-World Skills [26.537984734738764]
Odysseyは、LLM(Large Language Model)ベースのエージェントにオープンワールドスキルを付与し、Minecraftの世界を探索する新しいフレームワークである。
Odysseyは,(1)40のプリミティブスキルと183の作曲スキルからなるオープンワールドスキルライブラリを備えた対話型エージェント,(2)Minecraft Wikiから派生した390k以上のインストラクションインストラクションを持つ大規模質問応答データセット上で訓練された微調整LLaMA-3モデル,(3)新しいエージェント能力ベンチマークの3つの重要な部分から構成される。
論文 参考訳(メタデータ) (2024-07-22T02:06:59Z) - Ghost in the Minecraft: Generally Capable Agents for Open-World
Environments via Large Language Models with Text-based Knowledge and Memory [97.87093169454431]
Ghost in the Minecraft (GITM) は、LLM(Large Language Models)とテキストベースの知識と記憶を統合する新しいフレームワークである。
我々は、構造化されたアクションのセットを開発し、LSMを活用してエージェントが実行するアクションプランを生成する。
LLMをベースとしたエージェントは、従来の手法を著しく上回り、成功率+47.5%という顕著な改善を達成している。
論文 参考訳(メタデータ) (2023-05-25T17:59:49Z) - MineDojo: Building Open-Ended Embodied Agents with Internet-Scale
Knowledge [70.47759528596711]
私たちは、人気のMinecraftゲーム上に構築された新しいフレームワークであるMineDojoを紹介します。
本稿では,学習報酬関数として,大規模な事前学習ビデオ言語モデルを活用する新しいエージェント学習アルゴリズムを提案する。
我々のエージェントは、手動で設計した密なシェーピング報酬なしで、自由形式の言語で指定された様々なオープンエンドタスクを解くことができる。
論文 参考訳(メタデータ) (2022-06-17T15:53:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。