論文の概要: Vision to Geometry: 3D Spatial Memory for Sequential Embodied MLLM Reasoning and Exploration
- arxiv url: http://arxiv.org/abs/2512.02458v1
- Date: Tue, 02 Dec 2025 06:35:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.748907
- Title: Vision to Geometry: 3D Spatial Memory for Sequential Embodied MLLM Reasoning and Exploration
- Title(参考訳): 幾何学へのビジョン:シークエンシャル・エボダイドMLLM推論と探索のための3次元空間記憶
- Authors: Zhongyi Cai, Yi Du, Chen Wang, Yu Kong,
- Abstract要約: 身体的なタスクは通常、エージェントが未知の環境を積極的に探索し、特定の目標を達成するためにシーンについて推論する必要がある。
実生活に配備されると、エージェントはしばしばシーケンシャルなタスクに直面し、そこでは各新しいサブタスクが前のタスクの完了に続く。
2つの古典的具体的タスクを含むSequential Embodied Exploration and Reasoning BenchmarkであるSEER-Benchを紹介する。
本研究では,3次元空間記憶推論手法である3DSPMRを提案する。
- 参考スコア(独自算出の注目度): 12.928422281441968
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing research on indoor embodied tasks typically requires agents to actively explore unknown environments and reason about the scene to achieve a specific goal. However, when deployed in real life, agents often face sequential tasks, where each new sub-task follows the completion of the previous one, and certain sub-tasks may be infeasible, such as searching for a non-existent object. Compared with the single-task setting, the core challenge lies in reusing spatial knowledge accumulated from previous explorations to support subsequent reasoning and exploration. In this work, we investigate this underexplored yet practically significant embodied AI challenge. To evaluate this challenge, we introduce SEER-Bench, a new Sequential Embodied Exploration and Reasoning Benchmark encompassing encompassing two classic embodied tasks: Embodied Question Answering (EQA) and Embodied Multi-modal Navigation (EMN). Building on SEER-Bench, we propose 3DSPMR, a 3D SPatial Memory Reasoning approach that exploits relational, visual, and geometric cues from explored regions to augment Multi-Modal Large Language Models (MLLMs) for reasoning and exploration in sequential embodied tasks. To the best of our knowledge, this is the first work to explicitly incorporate geometric information into MLLM-based spatial understanding and reasoning. Extensive experiments verify that 3DSPMR achieves substantial performance gains on both sequential EQA and EMN tasks.
- Abstract(参考訳): 屋内実施タスクに関する既存の研究では、エージェントが未知の環境を積極的に探索し、特定の目標を達成するためにシーンについて推論する必要がある。
しかし、実生活に配備された場合、エージェントはしばしばシーケンシャルなタスクに直面し、そこでは各新しいサブタスクが前のタスクの完了に続く。
シングルタスクのセッティングと比較すると、主要な課題は、その後の推論と探索を支援するために、以前の探索から蓄積された空間的知識を再利用することである。
本研究では,この過小評価されているが,実質的に重要なAI課題について検討する。
この課題を評価するために、SEER-Bench(Sequential Embodied Exploration and Reasoning Benchmark)を紹介する。
SEER-Bench上に構築した3DSPMRは,探索領域からのリレーショナル,視覚的,幾何学的手がかりを利用して,逐次的具体化タスクにおける推論と探索のための多モード大規模言語モデル(MLLM)を増強する3DSPMRである。
我々の知る限りでは、幾何学的情報をMLLMに基づく空間的理解と推論に明示的に組み込んだ最初の研究である。
大規模な実験により、3DSPMRはシーケンシャルEQAタスクとEMNタスクの両方でかなりの性能向上を達成することが確認された。
関連論文リスト
- Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks [108.15756345836901]
大規模モデルを用いたマルチモーダル空間推論タスクの包括的レビューを行う。
我々は、視覚言語ナビゲーションやアクションモデルを含む、具体的AIの進歩についてレビューする。
我々は,新しいセンサによる空間的理解に寄与する音声やエゴセントリックビデオなどの新たなモダリティを考察する。
論文 参考訳(メタデータ) (2025-10-29T17:55:43Z) - SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding [64.15606979785355]
マルチモーダル大規模言語モデル(MLLM)は,質問応答タスクにおいて顕著な成功を収めているが,空間的理解能力は乏しい。
既存のMLLMは3次元空間認識と理解能力を持っているか?
論文 参考訳(メタデータ) (2025-05-22T17:59:03Z) - Beyond the Destination: A Novel Benchmark for Exploration-Aware Embodied Question Answering [87.76784654371312]
Embodied Question Answeringでは、エージェントが動的に3D環境を探索し、視覚情報を積極的に収集し、質問に答えるために多段階の推論を行う必要がある。
既存のデータセットはしばしばバイアスや事前の知識を導入し、非身体的推論につながる。
探索能力と推論能力の両方を評価するために特別に設計された最大のデータセットを構築します。
論文 参考訳(メタデータ) (2025-03-14T06:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。