論文の概要: SpaceMind: Camera-Guided Modality Fusion for Spatial Reasoning in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2511.23075v1
- Date: Fri, 28 Nov 2025 11:04:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.867386
- Title: SpaceMind: Camera-Guided Modality Fusion for Spatial Reasoning in Vision-Language Models
- Title(参考訳): SpaceMind:視覚言語モデルにおける空間推論のためのカメラ誘導モード融合
- Authors: Ruosen Zhao, Zhikang Zhang, Jialei Xu, Jiahao Chang, Dong Chen, Lingyun Li, Weijian Sun, Zizhuang Wei,
- Abstract要約: 大規模視覚言語モデル(VLM)は、強いマルチモーダル理解を示すが、3次元空間的推論に苦慮している。
本研究では,RGB入力のみから空間推論を行うために設計されたマルチモーダルな大規模言語モデルであるSpaceMindを提案する。
- 参考スコア(独自算出の注目度): 13.88629412035865
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large vision-language models (VLMs) show strong multimodal understanding but still struggle with 3D spatial reasoning, such as distance estimation, size comparison, and cross-view consistency. Existing 3D-aware methods either depend on auxiliary 3D information or enhance RGB-only VLMs with geometry encoders through shallow feature fusion. We propose SpaceMind, a multimodal large language model explicitly designed for spatial reasoning solely from RGB inputs. The model adopts a dual-encoder architecture, integrating VGGT as a spatial understanding encoder and InternViT as a 2D visual encoder. The key idea is to treat the camera representation as an active guiding modality rather than passive metadata. Specifically, SpaceMind introduces a lightweight Camera-Guided Modality Fusion module before the language model to replace shallow fusion. It applies camera-conditioned biasing to spatial tokens, assigns query-independent weights reflecting their geometric importance, and uses the camera embedding to gate the fused representation. Empirically, SpaceMind establishes new state-of-the-art results on VSI-Bench, SQA3D and SPBench, surpassing both open and proprietary systems on VSI-Bench and SPBench by large margins and achieving state-of-the-art performance on SQA3D. These results demonstrate that camera-guided modality fusion is an effective and practical inductive bias for equipping VLMs with genuinely spatially grounded intelligence. We will release code and model checkpoints to support future research.
- Abstract(参考訳): 大規模視覚言語モデル(VLM)は、強いマルチモーダル理解を示すが、距離推定、サイズ比較、相互視の整合性といった3次元空間推論に苦慮している。
既存の3D認識手法は補助的な3D情報に依存するか、浅い特徴融合を通じて幾何学エンコーダを用いたRGBのみのVLMを強化する。
本研究では,RGB入力のみから空間推論を行うために設計されたマルチモーダルな大規模言語モデルであるSpaceMindを提案する。
このモデルはデュアルエンコーダアーキテクチャを採用し、VGGTを空間理解エンコーダとして、InternViTを2次元ビジュアルエンコーダとして統合する。
キーとなる考え方は、カメラ表現を受動的メタデータではなく、アクティブな誘導モダリティとして扱うことである。
とくにSpaceMindは、浅い核融合を置き換えるために、言語モデルの前に軽量のカメラガイド付きModality Fusionモジュールを導入した。
空間トークンにカメラ条件バイアスを適用し、その幾何学的重要性を反映したクエリ非依存の重みを割り当て、融合表現をゲートするためにカメラ埋め込みを使用する。
実証的に、SpaceMindはVSI-Bench、SQA3D、SPBenchで新しい最先端結果を確立し、VSI-BenchとSPBenchのオープンシステムとプロプライエタリシステムの両方を大きなマージンで上回り、SQA3Dで最先端のパフォーマンスを達成する。
これらの結果から, カメラ誘導型モダリティ融合は, VLMを真に空間的に接地されたインテリジェンスで装備する上で, 効果的かつ実用的な誘導バイアスであることが示された。
将来の研究をサポートするために、コードとモデルチェックポイントをリリースします。
関連論文リスト
- Abstract 3D Perception for Spatial Intelligence in Vision-Language Models [100.13033631690114]
視覚言語モデル(VLM)は、空間認識や物理的理解といった3D関連課題に苦しむ。
我々は,VLMの幾何学的構造と物理力学を符号化するために,抽象的境界ボックスを利用するフレームワークであるSandboxVLMを紹介した。
提案手法は空間知能を常に向上させ,SAT Realの8.3%のゲインをベースライン法と比較して達成する。
論文 参考訳(メタデータ) (2025-11-14T04:16:09Z) - Vid-LLM: A Compact Video-based 3D Multimodal LLM with Reconstruction-Reasoning Synergy [4.1703677379815565]
外部の3Dデータを必要としないビデオ入力を直接処理するビデオベースの3D-MLLMであるVid-LLMを提案する。
本手法では, 偏見の知覚性能を向上させるために, 幾何先行法を直接的に用いた。
各種ベンチマーク実験により,3次元質問応答,3次元キャプション,3次元視覚的接地作業において,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2025-09-29T07:34:18Z) - Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence [13.168559963356952]
純粋に2次元の観察から空間的推論を行う新しいフレームワークであるSpatial-MLLMを提案する。
我々の重要な洞察は、フィードフォワード視覚幾何学基礎モデルに先立って、強い構造を解き放つことである。
コネクタは、両方の機能を統合された視覚トークンに統合し、空間的理解を強化する。
論文 参考訳(メタデータ) (2025-05-29T17:59:04Z) - VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction [86.82819259860186]
本稿では,視覚言語モデル(VLM)のための統合フレームワークであるVLM-3Rについて紹介する。
VLM-3Rは、空間的理解を表す暗黙の3Dトークンを導出する幾何学エンコーダを用いて、モノクロビデオフレームを処理する。
論文 参考訳(メタデータ) (2025-05-26T17:56:30Z) - Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding [58.38294408121273]
CUA-O3Dと呼ばれるオープン語彙3次元シーン理解のためのクロスモーダル・不確実性認識アグリゲーションを提案する。
提案手法は,(1)空間認識型視覚基盤モデルの幾何学的知識とともに,VLMのセマンティックな先入観を取り入れること,(2)モデル固有の不確かさを捉えるために,新しい決定論的不確実性推定を用いること,の2つの課題に対処する。
論文 参考訳(メタデータ) (2025-03-20T20:58:48Z) - LLMI3D: MLLM-based 3D Perception from a Single 2D Image [77.13869413871028]
マルチモーダルな大言語モデル(MLLM)は、一般的な能力では優れているが、3Dタスクでは性能が劣る。
本稿では,3次元局所空間物体認識の弱さ,テキストに基づく幾何学的数値出力の低さ,カメラ焦点変動の処理能力の低下に対する解決策を提案する。
我々は,事前学習したMLLMに対してパラメータ効率の良い微調整を採用し,強力な3次元知覚MLLMであるLLMI3Dを開発した。
論文 参考訳(メタデータ) (2024-08-14T10:00:16Z) - BiCo-Fusion: Bidirectional Complementary LiDAR-Camera Fusion for Semantic- and Spatial-Aware 3D Object Detection [10.321117046185321]
新しいトレンドはマルチモーダル入力、すなわちLiDARとカメラを融合させることである。
LiDARの機能は詳細なセマンティック情報と格闘し、カメラは正確な3D空間情報を欠いている。
BiCo-Fusionは、ロバストなセマンティックおよび空間認識の3Dオブジェクト検出を実現する。
論文 参考訳(メタデータ) (2024-06-27T09:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。