論文の概要: Thinking with Geometry: Active Geometry Integration for Spatial Reasoning
- arxiv url: http://arxiv.org/abs/2602.06037v1
- Date: Thu, 05 Feb 2026 18:59:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.155856
- Title: Thinking with Geometry: Active Geometry Integration for Spatial Reasoning
- Title(参考訳): 幾何学的思考:空間推論のためのアクティブな幾何学的統合
- Authors: Haoyuan Li, Qihang Cao, Tao Tang, Kun Xiang, Zihan Guo, Jianhua Han, Hang Xu, Xiaodan Liang,
- Abstract要約: 我々は,能動的知覚にパラダイム・パッシブ・フュージョンをシフトさせるフレームワークであるGeoThinkerを提案する。
特徴混合の代わりに、GeoThinkerはモデルが内部の推論要求に応じて条件付けられた幾何学的証拠を選択的に検索することを可能にする。
その結果,次世代の空間知能には,空間構造を積極的に統合する能力が不可欠であることが示唆された。
- 参考スコア(独自算出の注目度): 68.59084007360615
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent progress in spatial reasoning with Multimodal Large Language Models (MLLMs) increasingly leverages geometric priors from 3D encoders. However, most existing integration strategies remain passive: geometry is exposed as a global stream and fused in an indiscriminate manner, which often induces semantic-geometry misalignment and redundant signals. We propose GeoThinker, a framework that shifts the paradigm from passive fusion to active perception. Instead of feature mixing, GeoThinker enables the model to selectively retrieve geometric evidence conditioned on its internal reasoning demands. GeoThinker achieves this through Spatial-Grounded Fusion applied at carefully selected VLM layers, where semantic visual priors selectively query and integrate task-relevant geometry via frame-strict cross-attention, further calibrated by Importance Gating that biases per-frame attention toward task-relevant structures. Comprehensive evaluation results show that GeoThinker sets a new state-of-the-art in spatial intelligence, achieving a peak score of 72.6 on the VSI-Bench. Furthermore, GeoThinker demonstrates robust generalization and significantly improved spatial perception across complex downstream scenarios, including embodied referring and autonomous driving. Our results indicate that the ability to actively integrate spatial structures is essential for next-generation spatial intelligence. Code can be found at https://github.com/Li-Hao-yuan/GeoThinker.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)を用いた空間推論の最近の進歩は、3次元エンコーダの幾何的先行をますます活用している。
しかし、既存の統合戦略のほとんどは受動的であり、幾何はグローバルストリームとして公開され、無差別な方法で融合され、しばしば意味幾何学的ミスアライメントと冗長な信号を引き起こす。
受動的融合から能動的知覚へパラダイムをシフトさせるフレームワークであるGeoThinkerを提案する。
特徴混合の代わりに、GeoThinkerはモデルが内部の推論要求に応じて条件付けられた幾何学的証拠を選択的に検索することを可能にする。
GeoThinkerは、慎重に選択されたVLM層に適用された空間周囲融合(Spatial-Grounded Fusion)によってこれを達成し、セマンティックな視覚的前提を選択的にクエリし、フレーム制限のクロスアテンションを通じてタスク関連幾何を統合する。
総合的な評価結果から、GeoThinkerは空間知能の新たな最先端を定め、VSI-Benchで72.6のピークスコアを達成した。
さらに、GeoThinkerは、具体化された参照や自律運転を含む複雑な下流シナリオにおける堅牢な一般化と空間知覚を著しく改善する。
その結果,次世代の空間知能には,空間構造を積極的に統合する能力が不可欠であることが示唆された。
コードはhttps://github.com/Li-Hao-yuan/GeoThinkerで見ることができる。
関連論文リスト
- TangramPuzzle: Evaluating Multimodal Large Language Models with Compositional Spatial Reasoning [104.66714520975837]
古典的タングラムゲームのレンズを通して構成空間推論を評価するために,幾何グラウンドのベンチマークを導入する。
本稿では,タングラム集合を正確に機械で検証可能な座標仕様でグルーピングする記号幾何学的枠組みであるタングラム構成式(TCE)を提案する。
MLLMは、幾何学的制約を無視しながら、ターゲットのシルエットとのマッチングを優先する傾向がある。
論文 参考訳(メタデータ) (2026-01-23T07:35:05Z) - Seeing through Imagination: Learning Scene Geometry via Implicit Spatial World Modeling [68.14113731953971]
本稿では,人間のような想像力をシミュレートするインプリシット・スパットIaLwOrldモデリングパラダイムMILOを紹介する。
提案手法は,複数のベースラインとベンチマークにまたがる空間推論能力を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2025-12-01T16:01:41Z) - DynaSolidGeo: A Dynamic Benchmark for Genuine Spatial Mathematical Reasoning of VLMs in Solid Geometry [21.08408074777344]
DynaSolidGeoは視覚言語モデル(VLM)における真の空間的推論を評価するためのベンチマークである
専門家による503のシード質問が含まれており、原則として、多様なマルチモーダルテキストビジュアルインスタンスを動的に生成することができる。
我々は、論理的妥当性と因果コヒーレンスを測定するために、専門家アノテート推論チェーンに基づくプロセス評価を取り入れた。
論文 参考訳(メタデータ) (2025-10-25T15:49:45Z) - GeoComplete: Geometry-Aware Diffusion for Reference-Driven Image Completion [36.02469602451232]
本稿では,完備領域における幾何的整合性を実現するために,明示的な3次元構造ガイダンスを取り入れた新しいフレームワークを提案する。
実験の結果、GeoCompleteは最先端の手法よりも17.1 PSNRの改善を実現している。
論文 参考訳(メタデータ) (2025-10-03T15:38:12Z) - GeoGramBench: Benchmarking the Geometric Program Reasoning in Modern LLMs [7.605833826892782]
本稿では,従来の数学的推論の複雑さではなく,幾何学的複雑性を考慮した3段階分類によって整理された500の精巧な問題のベンチマークを示す。
17個のフロンティアLSMの総合的な評価により,一貫性と顕著な欠陥が明らかとなった。
これらの結果は、プログラム駆動型空間推論によって引き起こされる独特な課題を浮き彫りにし、シンボル-空間幾何学的推論の研究を進めるための貴重な資源としてGeoGramBenchを確立した。
論文 参考訳(メタデータ) (2025-05-23T09:17:07Z) - GeoX: Geometric Problem Solving Through Unified Formalized Vision-Language Pre-training [45.42400674977197]
GeoXは幾何学的理解と推論タスクに焦点を当てたマルチモーダルな大規模モデルである。
図形エンコーダとシンボルデコーダを開発するために,単調な事前学習を導入し,幾何学的画像やコーパスの理解を深める。
本研究では,識別クエリを生成し,不均一に分布した幾何学的信号から不定形表現を除去するジェネレータ・アンド・サンプラー変換器(GS-Former)を提案する。
論文 参考訳(メタデータ) (2024-12-16T15:20:03Z) - GREAT: Geometry-Intention Collaborative Inference for Open-Vocabulary 3D Object Affordance Grounding [53.42728468191711]
Open-Vocabulary 3D object affordance groundingは、任意の命令で3Dオブジェクト上のアクション可能性の領域を予測することを目的としている。
GREAT (GeometRy-intEntion collAboraTive Inference) を提案する。
論文 参考訳(メタデータ) (2024-11-29T11:23:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。