論文の概要: SpatialStack: Layered Geometry-Language Fusion for 3D VLM Spatial Reasoning
- arxiv url: http://arxiv.org/abs/2603.27437v1
- Date: Sat, 28 Mar 2026 22:49:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.956334
- Title: SpatialStack: Layered Geometry-Language Fusion for 3D VLM Spatial Reasoning
- Title(参考訳): 空間Stack:3次元VLM空間共振のための層状幾何学・言語融合
- Authors: Jiang Zhang, Shijie Zhou, Bangya Liu, Achuta Kadambi, Zhiwen Fan,
- Abstract要約: 大規模な視覚言語モデル(VLM)は、まだ信頼性の高い3次元空間推論に苦戦している。
本研究では,階層的な融合フレームワークであるSpatialStackを提案する。
この枠組みに基づいて,複数次元空間推論ベンチマークにおける最先端性能を実現するモデル VLM-SpatialStack を開発した。
- 参考スコア(独自算出の注目度): 22.547972947051765
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large vision-language models (VLMs) still struggle with reliable 3D spatial reasoning, a core capability for embodied and physical AI systems. This limitation arises from their inability to capture fine-grained 3D geometry and spatial relationships. While recent efforts have introduced multi-view geometry transformers into VLMs, they typically fuse only the deep-layer features from vision and geometry encoders, discarding rich hierarchical signals and creating a fundamental bottleneck for spatial understanding. To overcome this, we propose SpatialStack, a general hierarchical fusion framework that progressively aligns vision, geometry, and language representations across the model hierarchy. Moving beyond conventional late-stage vision-geometry fusion, SpatialStack stacks and synchronizes multi-level geometric features with the language backbone, enabling the model to capture both local geometric precision and global contextual semantics. Building upon this framework, we develop VLM-SpatialStack, a model that achieves state-of-the-art performance on multiple 3D spatial reasoning benchmarks. Extensive experiments and ablations demonstrate that our multi-level fusion strategy consistently enhances 3D understanding and generalizes robustly across diverse spatial reasoning tasks, establishing SpatialStack as an effective and extensible design paradigm for vision-language-geometry integration in next-generation multimodal physical AI systems.
- Abstract(参考訳): 大規模な視覚言語モデル(VLM)は、まだ信頼性の高い3次元空間推論に苦戦している。
この制限は、微細な3次元幾何学と空間的関係を捉えることができないことから生じる。
近年の取り組みでは、多視点幾何変換器をVLMに導入しているが、通常は視覚や幾何エンコーダの深層構造のみを融合させ、リッチな階層的信号を捨て、空間的理解のための基本的なボトルネックを創り出す。
これを解決するために、モデル階層全体にわたって視覚、幾何学、言語表現を段階的に整合させる一般的な階層的融合フレームワークであるSpatialStackを提案する。
従来の後期の視覚幾何学融合を超えて、SpatialStackは言語バックボーンと多段階の幾何学的特徴を同期させ、局所的な幾何学的精度とグローバルな文脈的意味論の両方を捉えることができる。
この枠組みに基づいて,複数次元空間推論ベンチマークにおける最先端性能を実現するモデル VLM-SpatialStack を開発した。
大規模な実験と改善により、我々のマルチレベル融合戦略は、さまざまな空間的推論タスクにおける3D理解を一貫して強化し、堅牢に一般化し、次世代のマルチモーダル物理AIシステムにおける視覚-言語-幾何学統合のための効果的で拡張可能な設計パラダイムとしてSpatialStackを確立します。
関連論文リスト
- SoPE: Spherical Coordinate-Based Positional Embedding for Enhancing Spatial Perception of 3D LVLMs [21.891285551179365]
Spherical Coordinate-based Positional Embedding (SoPE)を紹介する。
本手法は,3次元球面座標空間に点-クラウドトークンのインデックスをマッピングし,空間位置と方向角の統一モデリングを可能にする。
この定式化は、点クラウドデータの固有の幾何学的構造を保持し、空間的認識を高め、マルチモーダル学習のためのより一貫性があり表現力のある幾何学的表現をもたらす。
論文 参考訳(メタデータ) (2026-02-26T07:42:15Z) - Thinking with Geometry: Active Geometry Integration for Spatial Reasoning [68.59084007360615]
我々は,能動的知覚にパラダイム・パッシブ・フュージョンをシフトさせるフレームワークであるGeoThinkerを提案する。
特徴混合の代わりに、GeoThinkerはモデルが内部の推論要求に応じて条件付けられた幾何学的証拠を選択的に検索することを可能にする。
その結果,次世代の空間知能には,空間構造を積極的に統合する能力が不可欠であることが示唆された。
論文 参考訳(メタデータ) (2026-02-05T18:59:32Z) - Seeing through Imagination: Learning Scene Geometry via Implicit Spatial World Modeling [68.14113731953971]
本稿では,人間のような想像力をシミュレートするインプリシット・スパットIaLwOrldモデリングパラダイムMILOを紹介する。
提案手法は,複数のベースラインとベンチマークにまたがる空間推論能力を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2025-12-01T16:01:41Z) - Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。
我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。
その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文 参考訳(メタデータ) (2025-05-26T15:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。