論文の概要: SpaceMind++: Toward Allocentric Cognitive Maps for Spatially Grounded Video MLLMs
- arxiv url: http://arxiv.org/abs/2605.09449v1
- Date: Sun, 10 May 2026 10:01:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.256819
- Title: SpaceMind++: Toward Allocentric Cognitive Maps for Spatially Grounded Video MLLMs
- Title(参考訳): SpaceMind++: 空間的に接地されたビデオMLLMのためのアロセンティブ認知マップを目指して
- Authors: Bo Gu, Zhikang Zhang, Zizhuang Wei, Zhenyuan Chen, Lingyun Li, Zhuoyi Song,
- Abstract要約: 本稿では,RGBビデオからVoxelized Cognitive Mapを構築するビデオMLLMアーキテクチャであるSpaceMindを提案する。
この写像は、断片化された自我中心の観測を共有3次元メートル法表現に再編成する。
地図レベルの空間的知識を元の2次元視覚的特徴にリレーする新しいメカニズムであるコーディネート・ディープ・イテレーティブ・フュージョンを導入する。
- 参考スコア(独自算出の注目度): 6.871639227720094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent multimodal large language models (MLLMs) have made remarkable progress in visual understanding and language-based reasoning, yet they lack a persistent world-centered representation for spatially consistent reasoning in 3D environments. Inspired by the mammalian dual-stream system, where semantic and spatial cues are processed separately and integrated into an allocentric cognitive map, we propose SpaceMind++, a video MLLM architecture that explicitly builds a voxelized cognitive map from RGB videos. This map reorganizes fragmented egocentric observations into a shared 3D metric representation, enabling the model to preserve object permanence and spatial topology across changing viewpoints. To make this allocentric representation usable by a pretrained video MLLM without disrupting its native visual-token interface, we introduce Coordinate-Guided Deep Iterative Fusion, a new mechanism that relays map-level spatial knowledge back into the original 2D visual features. This fusion is explicitly guided by coordinate embeddings and 3D Rotary Positional Encoding, which ground semantic interactions in metric 3D space, resembling the entorhinal binding of sensory features to metric space. Extensive experiments show that SpaceMind++ achieves new state-of-the-art performance on VSI-Bench. Furthermore, it demonstrates superior out-of-distribution generalization on SPBench, SITE-Bench, and SPAR-Bench, underscoring its robustness in unseen 3D environments.
- Abstract(参考訳): 近年のマルチモーダル大言語モデル(MLLM)は、視覚的理解と言語に基づく推論において顕著な進歩を遂げているが、3次元環境における空間的一貫した推論のための世界中心の表現は欠如している。
そこで本研究では,RGBビデオからVoxelized Cognitive Mapを明示的に構築するビデオMLLMアーキテクチャであるSpaceMind++を提案する。
このマップは、断片化された自我中心の観測を共有された3次元メートル法表現に再編成し、モデルが変化する視点を越えてオブジェクトの永続性と空間トポロジーを保存することを可能にする。
そこで本研究では,従来の2次元視覚特徴にマップレベルの空間的知識を反映する新たなメカニズムであるCoordinate-Guided Deep Iterative Fusionを導入する。
この融合は、座標埋め込みと3次元回転位置エンコーディングによって明示的に導かれる。
大規模な実験により、SpaceMind++はVSI-Bench上で新しい最先端のパフォーマンスを実現している。
さらに,SPBench,SITE-Bench,SPAR-Benchの分布外一般化に優れることを示す。
関連論文リスト
- Uncovering and Shaping the Latent Representation of 3D Scene Topology in Vision-Language Models [9.722829662835233]
現代の視覚言語モデル (VLM) には3次元シーンの潜在的トポロジマップが存在することを示す。
この空間部分空間をクロスシーン線形特徴抽出により分離することにより,モデルの空間出力を因果的に制御するクリーン空間部分空間を抽出する。
この潜在表現を数学的に形成し、シーンの3次元ガウス-核グラフのラプラシア固有写像との対応性を証明する。
論文 参考訳(メタデータ) (2026-05-08T02:32:27Z) - Cog3DMap: Multi-View Vision-Language Reasoning with 3D Cognitive Maps [77.63233146945718]
マルチビュー画像から明示的な3Dメモリを連続的に構築するフレームワークであるCog3DMapを紹介する。
本フレームワークは空間的に構造化された3次元マップ上での直接推論を可能にし,様々な空間推論ベンチマーク上で最先端の性能を実現する。
論文 参考訳(メタデータ) (2026-03-24T10:05:32Z) - Spa3R: Predictive Spatial Field Modeling for 3D Visual Reasoning [43.746951848993035]
空間知能は、明示的な空間的インストラクションチューニングによって課されるのではなく、2次元視覚のみから現れる。
本稿では,未提示のマルチビュー画像から直接,空間表現の統一化を学習する,自己教師型フレームワークであるSpa3Rを紹介する。
実験では、Spa3-VLMが3D VQAで58.6%の最先端の精度を達成し、従来の方法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2026-02-24T18:37:34Z) - Seeing through Imagination: Learning Scene Geometry via Implicit Spatial World Modeling [68.14113731953971]
本稿では,人間のような想像力をシミュレートするインプリシット・スパットIaLwOrldモデリングパラダイムMILOを紹介する。
提案手法は,複数のベースラインとベンチマークにまたがる空間推論能力を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2025-12-01T16:01:41Z) - SpaceMind: Camera-Guided Modality Fusion for Spatial Reasoning in Vision-Language Models [13.88629412035865]
大規模視覚言語モデル(VLM)は、強いマルチモーダル理解を示すが、3次元空間的推論に苦慮している。
本研究では,RGB入力のみから空間推論を行うために設計されたマルチモーダルな大規模言語モデルであるSpaceMindを提案する。
論文 参考訳(メタデータ) (2025-11-28T11:04:21Z) - Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence [13.168559963356952]
純粋に2次元の観察から空間的推論を行う新しいフレームワークであるSpatial-MLLMを提案する。
我々の重要な洞察は、フィードフォワード視覚幾何学基礎モデルに先立って、強い構造を解き放つことである。
コネクタは、両方の機能を統合された視覚トークンに統合し、空間的理解を強化する。
論文 参考訳(メタデータ) (2025-05-29T17:59:04Z) - Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。
我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。
その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文 参考訳(メタデータ) (2025-05-26T15:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。