論文の概要: Make Geometry Matter for Spatial Reasoning
- arxiv url: http://arxiv.org/abs/2603.26639v1
- Date: Fri, 27 Mar 2026 17:45:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.62137
- Title: Make Geometry Matter for Spatial Reasoning
- Title(参考訳): 空間推論のための幾何学的要素を作る
- Authors: Shihua Zhang, Qiuhong Shen, Shizun Wang, Tianbo Pan, Xinchao Wang,
- Abstract要約: 視覚言語モデル(VLM)は、強いイメージと映像理解を実現するが、静的シーンとダイナミックビデオの両方で空間的推論を行う能力は限られている。
近年の進歩は、事前訓練された3次元基礎モデルから幾何学トークンをVLMに注入することで、この制限に対処しようとしている。
我々は、VLMが幾何トークンで積極的に推論するように促すことにより、幾何学的問題を作るためのフレームワークGeoSRを提案する。
- 参考スコア(独自算出の注目度): 62.61667611352403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Empowered by large-scale training, vision-language models (VLMs) achieve strong image and video understanding, yet their ability to perform spatial reasoning in both static scenes and dynamic videos remains limited. Recent advances try to handle this limitation by injecting geometry tokens from pretrained 3D foundation models into VLMs. Nevertheless, we observe that naive token fusion followed by standard fine-tuning in this line of work often leaves such geometric cues underutilized for spatial reasoning, as VLMs tend to rely heavily on 2D visual cues. In this paper, we propose GeoSR, a framework designed to make geometry matter by encouraging VLMs to actively reason with geometry tokens. GeoSR introduces two key components: (1) Geometry-Unleashing Masking, which strategically masks portions of 2D vision tokens during training to weaken non-geometric shortcuts and force the model to consult geometry tokens for spatial reasoning; and (2) Geometry-Guided Fusion, a gated routing mechanism that adaptively amplifies geometry token contributions in regions where geometric evidence is critical. Together, these designs unleash the potential of geometry tokens for spatial reasoning tasks. Extensive experiments on both static and dynamic spatial reasoning benchmarks demonstrate that GeoSR consistently outperforms prior methods and establishes new state-of-the-art performance by effectively leveraging geometric information. The project page is available at https://suhzhang.github.io/GeoSR/.
- Abstract(参考訳): 大規模トレーニングを取り入れた視覚言語モデル(VLM)は、強いイメージと映像理解を実現するが、静的シーンとダイナミックビデオの両方で空間推論を行う能力は限られている。
近年の進歩は、事前訓練された3次元基礎モデルから幾何学トークンをVLMに注入することで、この制限に対処しようとしている。
しかしながら,本研究の標準的な微調整は,VLMが2次元視覚的手がかりに大きく依存する傾向にあるため,空間的推論にあまり使われていない幾何学的手がかりを多く残している。
本稿では,VLMが幾何トークンを積極的に推論するように促すことにより,幾何学的問題を実現するためのフレームワークであるGeoSRを提案する。
ジオSRは,(1)非幾何学的ショートカットを弱めるために2次元視覚トークンの一部を戦略的に隠蔽し,空間的推論のために幾何学的トークンを参照するようモデルを強制するジオメトリー・アンリーッシング・マスキング,(2)幾何学的証拠が重要となる領域における幾何学的トークンの寄与を適応的に増幅するゲートルーティング機構であるGeometry-Guided Fusionの2つの重要な構成要素を紹介する。
これらの設計は、空間的推論タスクのための幾何学トークンの可能性を解き放つ。
静的および動的空間推論ベンチマークの広範な実験により、GeoSRは従来手法よりも一貫して優れており、幾何学的情報を有効に活用して新しい最先端性能を確立することが示されている。
プロジェクトページはhttps://suhzhang.github.io/GeoSR/で公開されている。
関連論文リスト
- Scalable Adaptation of 3D Geometric Foundation Models via Weak Supervision from Internet Video [76.32954467706581]
本稿では,生のビデオストリームからGEometric foundationモデルのスケーラブル適応を行うフレームワークであるSAGEを提案する。
階層的なマイニングパイプラインを使用して、ビデオをトレーニングトラジェクトリやハイブリッド監視に変換します。
実験の結果、SAGEはゼロショットの一般化を著しく向上し、チェムファー距離を20-42%削減した。
論文 参考訳(メタデータ) (2026-02-08T09:53:21Z) - Thinking with Geometry: Active Geometry Integration for Spatial Reasoning [68.59084007360615]
我々は,能動的知覚にパラダイム・パッシブ・フュージョンをシフトさせるフレームワークであるGeoThinkerを提案する。
特徴混合の代わりに、GeoThinkerはモデルが内部の推論要求に応じて条件付けられた幾何学的証拠を選択的に検索することを可能にする。
その結果,次世代の空間知能には,空間構造を積極的に統合する能力が不可欠であることが示唆された。
論文 参考訳(メタデータ) (2026-02-05T18:59:32Z) - Learning to Reason in 4D: Dynamic Spatial Understanding for Vision Language Models [79.18306680174011]
DSR Suiteは、データセット、ベンチマーク、モデルの各面にギャップを埋める。
そこで本研究では,DSRビデオから複数問合せペアを生成する自動パイプラインを提案する。
パイプラインは、カメラポーズ、局所点雲、オブジェクトマスク、向き、および3Dトラジェクトリを含む、豊富な幾何学的および運動的な情報を抽出する。
論文 参考訳(メタデータ) (2025-12-23T17:56:36Z) - GeoWorld: Unlocking the Potential of Geometry Models to Facilitate High-Fidelity 3D Scene Generation [68.02988074681427]
画像から3Dのシーン生成にビデオモデルを利用する以前の研究は、幾何学的歪みやぼやけた内容に悩まされる傾向にある。
本稿では,幾何学モデルの可能性を解き放つことにより,画像から3次元のシーン生成のパイプラインを再構築する。
我々のGeoWorldは、1つの画像と所定のカメラ軌道から高忠実度3Dシーンを生成することができ、定性的かつ定量的に先行手法より優れている。
論文 参考訳(メタデータ) (2025-11-28T13:55:45Z) - DynaSolidGeo: A Dynamic Benchmark for Genuine Spatial Mathematical Reasoning of VLMs in Solid Geometry [21.08408074777344]
DynaSolidGeoは視覚言語モデル(VLM)における真の空間的推論を評価するためのベンチマークである
専門家による503のシード質問が含まれており、原則として、多様なマルチモーダルテキストビジュアルインスタンスを動的に生成することができる。
我々は、論理的妥当性と因果コヒーレンスを測定するために、専門家アノテート推論チェーンに基づくプロセス評価を取り入れた。
論文 参考訳(メタデータ) (2025-10-25T15:49:45Z) - GACO-CAD: Geometry-Augmented and Conciseness-Optimized CAD Model Generation from Single Image [11.612167656421079]
マルチモーダル大言語モデル(MLLM)は2次元画像から3次元幾何学を正確に推定するのに依然として苦労している。
本稿では,新しい2段階後学習フレームワークGACO-CADを紹介する。
DeepCADとFusion360データセットの実験は、GACO-CADが最先端のパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2025-10-20T04:57:20Z) - Geometry-guided Feature Learning and Fusion for Indoor Scene Reconstruction [14.225228781008209]
本稿では3次元シーン再構成のための新しい幾何学的統合機構を提案する。
提案手法は,特徴学習,特徴融合,ネットワーク監視という3段階の3次元幾何学を取り入れている。
論文 参考訳(メタデータ) (2024-08-28T08:02:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。