論文の概要: MineAnyBuild: Benchmarking Spatial Planning for Open-world AI Agents
- arxiv url: http://arxiv.org/abs/2505.20148v1
- Date: Mon, 26 May 2025 15:48:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.581979
- Title: MineAnyBuild: Benchmarking Spatial Planning for Open-world AI Agents
- Title(参考訳): MineAnyBuild: オープンワールドAIエージェントの空間計画のベンチマーク
- Authors: Ziming Wei, Bingqian Lin, Zijian Jiao, Yunshuang Nie, Liang Ma, Yuecheng Liu, Yuzheng Zhuang, Xiaodan Liang,
- Abstract要約: 我々は,MinecraftゲームにおけるオープンワールドAIエージェントの空間計画能力を評価するために,MineAnyBuildというベンチマークを構築した。
MineAnyBuildは、与えられたマルチモーダルなヒューマンインストラクションに基づいて実行可能なアーキテクチャ構築プランを生成するエージェントを必要とする。
4000のキュレートされた空間計画タスクを伴い、リッチなプレイヤー生成コンテンツを利用することで無限に拡張可能なデータ収集のパラダイムを提供する。
- 参考スコア(独自算出の注目度): 43.585452978583135
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Spatial Planning is a crucial part in the field of spatial intelligence, which requires the understanding and planning about object arrangements in space perspective. AI agents with the spatial planning ability can better adapt to various real-world applications, including robotic manipulation, automatic assembly, urban planning etc. Recent works have attempted to construct benchmarks for evaluating the spatial intelligence of Multimodal Large Language Models (MLLMs). Nevertheless, these benchmarks primarily focus on spatial reasoning based on typical Visual Question-Answering (VQA) forms, which suffers from the gap between abstract spatial understanding and concrete task execution. In this work, we take a step further to build a comprehensive benchmark called MineAnyBuild, aiming to evaluate the spatial planning ability of open-world AI agents in the Minecraft game. Specifically, MineAnyBuild requires an agent to generate executable architecture building plans based on the given multi-modal human instructions. It involves 4,000 curated spatial planning tasks and also provides a paradigm for infinitely expandable data collection by utilizing rich player-generated content. MineAnyBuild evaluates spatial planning through four core supporting dimensions: spatial understanding, spatial reasoning, creativity, and spatial commonsense. Based on MineAnyBuild, we perform a comprehensive evaluation for existing MLLM-based agents, revealing the severe limitations but enormous potential in their spatial planning abilities. We believe our MineAnyBuild will open new avenues for the evaluation of spatial intelligence and help promote further development for open-world AI agents capable of spatial planning.
- Abstract(参考訳): 空間計画は空間知能の分野において重要な部分であり、空間的視点における物体配置の理解と計画を必要とする。
空間計画能力を持つAIエージェントは、ロボット操作、自動組み立て、都市計画など、さまざまな現実世界のアプリケーションに適応することができる。
近年,Multimodal Large Language Models (MLLM) の空間的インテリジェンスを評価するためのベンチマークの構築が試みられている。
それでもこれらのベンチマークは主に、抽象的な空間的理解と具体的なタスク実行のギャップに悩まされる典型的な視覚的質問応答(VQA)形式に基づく空間的推論に焦点を当てている。
本研究では,MinecraftゲームにおけるオープンワールドAIエージェントの空間計画能力を評価することを目的とした,MineAnyBuildという包括的なベンチマークの構築をさらに進める。
具体的には、MineAnyBuildは、与えられたマルチモーダルなヒューマンインストラクションに基づいて実行可能なアーキテクチャ構築プランを生成するエージェントを必要とする。
4000のキュレートされた空間計画タスクを伴い、リッチなプレイヤー生成コンテンツを利用することで無限に拡張可能なデータ収集のパラダイムを提供する。
MineAnyBuildは空間的理解、空間的推論、創造性、空間的常識という4つの中核的な側面を通して空間的計画を評価する。
MineAnyBuildをベースとして,既存のMLLMエージェントの総合的な評価を行い,その空間計画能力に重大な制約があるが,その潜在能力を明らかにした。
私たちは、MineAnyBuildが空間的知性の評価のための新たな道を開き、空間計画が可能なオープンワールドAIエージェントのさらなる開発を促進すると信じています。
関連論文リスト
- SpatialLLM: From Multi-modality Data to Urban Spatial Intelligence [13.810192130250744]
SpaceLLMのコアは、シーンベースの分析のために事前学習されたLCMを誘導するために、生の空間データから詳細で構造化されたシーン記述を構築することである。
広汎な実験により,事前学習したLLMは空間分布情報を正確に知覚できることが判明した。
都市分析におけるLLM性能に影響を及ぼす要因として,多分野知識,文脈長,推論能力が重要である。
論文 参考訳(メタデータ) (2025-05-19T04:53:41Z) - OmniGeo: Towards a Multimodal Large Language Models for Geospatial Artificial Intelligence [51.0456395687016]
マルチモーダル大言語モデル(LLM)が人工知能の新しいフロンティアをオープンした。
地理空間応用に適したMLLM(OmniGeo)を提案する。
自然言語理解の長所と空間的推論の長所を組み合わせることで,GeoAIシステムの指示追従能力と精度を高めることができる。
論文 参考訳(メタデータ) (2025-03-20T16:45:48Z) - CityEQA: A Hierarchical LLM Agent on Embodied Question Answering Benchmark in City Space [35.223263448229716]
EQA(Embodied Question Answering)は主に屋内環境に焦点を当てている。
本研究では,ダイナミックな都市空間における活発な探索を通じてオープンな語彙に答える新しい課題であるCityEQAを紹介する。
我々は,1,412の人的注釈付きタスクを含む最初のベンチマークデータセットであるCityEQA-ECを提示する。
また,CityEQA に適した新規エージェントである Planner-Manager-Actor (PMA) を提案する。
論文 参考訳(メタデータ) (2025-02-18T04:36:15Z) - EmbodiedCity: A Benchmark Platform for Embodied Agent in Real-world City Environment [38.14321677323052]
身体的人工知能は、エージェントの身体が人間のような行動を引き起こす役割を強調している。
本稿では,実環境におけるインテリジェンス評価のためのベンチマークプラットフォームを構築する。
論文 参考訳(メタデータ) (2024-10-12T17:49:26Z) - TravelPlanner: A Benchmark for Real-World Planning with Language Agents [63.199454024966506]
我々は,旅行計画に焦点を当てた新しい計画ベンチマークであるTravelPlannerを提案する。
豊富なサンドボックス環境、400万近いデータレコードにアクセスするためのさまざまなツール、計画意図とリファレンスプランを慎重にキュレートした1,225のツールを提供する。
包括的評価では、現在の言語エージェントがそのような複雑な計画タスクを処理できないことが示されており、GPT-4でさえ0.6%の成功率しか達成できない。
論文 参考訳(メタデータ) (2024-02-02T18:39:51Z) - A systematic review of geospatial location embedding approaches in large
language models: A path to spatial AI systems [0.0]
地理空間的位置埋め込み(GLE)は、大規模言語モデル(LLM)が空間データを同化して解析するのに役立つ。
GLEは、空間的知識をモデルアーキテクチャに組み込む空間的基礎/言語モデル(SLM)の必要性を示唆している。
論文 参考訳(メタデータ) (2024-01-12T12:43:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。