論文の概要: GeoSense: Internalizing Geometric Necessity Perception for Multimodal Reasoning
- arxiv url: http://arxiv.org/abs/2603.10370v1
- Date: Wed, 11 Mar 2026 03:32:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.763915
- Title: GeoSense: Internalizing Geometric Necessity Perception for Multimodal Reasoning
- Title(参考訳): GeoSense:マルチモーダル推論のための幾何学的必要知覚の内在化
- Authors: Ruiheng Liu, Haihong Hao, Mingfei Han, Xin Gu, Kecheng Zhang, Changlin Li, Xiaojun Chang,
- Abstract要約: マルチモーダル大規模言語モデル(MLLM)の限られた空間的理解を克服する枠組みを開発する。
この枠組みは,2次元の手がかりが不十分と判断された場合の推論において,幾何学的特徴を自律的に関与させることにより,知覚的不整合を意識したモデルを実現する。
- 参考スコア(独自算出の注目度): 51.63457948949102
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Advancing towards artificial superintelligence requires rich and intelligent perceptual capabilities. A critical frontier in this pursuit is overcoming the limited spatial understanding of Multimodal Large Language Models (MLLMs), where geometry information is essential. Existing methods often address this by rigidly injecting geometric signals into every input, while ignoring their necessity and adding computation overhead. Contrary to this paradigm, our framework endows the model with an awareness of perceptual insufficiency, empowering it to autonomously engage geometric features in reasoning when 2D cues are deemed insufficient. To achieve this, we first introduce an independent geometry input channel to the model architecture and conduct alignment training, enabling the effective utilization of geometric features. Subsequently, to endow the model with perceptual awareness, we curate a dedicated spatial-aware supervised fine-tuning dataset. This serves to activate the model's latent internal cues, empowering it to autonomously determine the necessity of geometric information. Experiments across multiple spatial reasoning benchmarks validate this approach, demonstrating significant spatial gains without compromising 2D visual reasoning capabilities, offering a path toward more robust, efficient and self-aware multi-modal intelligence.
- Abstract(参考訳): 人工超知能への適応には、豊かでインテリジェントな知覚能力が必要である。
この追求における重要なフロンティアは、幾何学情報が不可欠であるマルチモーダル大言語モデル(MLLM)の空間的理解の制限を克服することである。
既存の手法では、全ての入力に幾何学的信号を厳格に注入し、必要を無視し、計算オーバーヘッドを追加することで、この問題に対処することが多い。
このパラダイムとは対照的に、我々のフレームワークは知覚障害を意識してモデルをサポートし、2次元キューが不十分と判断された場合の推論において、幾何学的特徴を自律的に行うことができる。
これを実現するために、まずモデルアーキテクチャに独立した幾何学入力チャネルを導入し、アライメントトレーニングを行い、幾何学的特徴を効果的に活用する。
その後、知覚的認識をモデルに与えるために、専用空間認識型微調整データセットをキュレートする。
これはモデルの潜伏した内部キューを活性化し、幾何学的情報の必要性を自律的に決定する権限を与える。
複数の空間的推論ベンチマークの実験により、このアプローチが検証され、2次元の視覚的推論能力を損なうことなく、より堅牢で効率的で自己認識的なマルチモーダルインテリジェンスへの道筋が示される。
関連論文リスト
- World2Mind: Cognition Toolkit for Allocentric Spatial Reasoning in Foundation Models [25.135316296678187]
既存の手法は、3Dグラウンドデータを介して統計的ショートカットを過度に適合させるか、2Dの視覚的知覚に限定される。
トレーニング不要な空間情報ツールキット World2Mind を提案する。
我々はWorld2MindがGPT-5.2のようなフロンティアモデルの性能を5%18%向上させることを示した。
論文 参考訳(メタデータ) (2026-03-10T15:12:14Z) - Thinking with Geometry: Active Geometry Integration for Spatial Reasoning [68.59084007360615]
我々は,能動的知覚にパラダイム・パッシブ・フュージョンをシフトさせるフレームワークであるGeoThinkerを提案する。
特徴混合の代わりに、GeoThinkerはモデルが内部の推論要求に応じて条件付けられた幾何学的証拠を選択的に検索することを可能にする。
その結果,次世代の空間知能には,空間構造を積極的に統合する能力が不可欠であることが示唆された。
論文 参考訳(メタデータ) (2026-02-05T18:59:32Z) - Forging Spatial Intelligence: A Roadmap of Multi-Modal Data Pre-Training for Autonomous Systems [75.78934957242403]
自動運転車とドローンは、マルチモーダル搭載センサーデータから真の空間情報を必要とする。
本稿では,この目標に向かって進む中核的な技術群を同定し,マルチモーダル・プレトレーニングのためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-30T17:58:01Z) - Cross-Modal Geometric Hierarchy Fusion: An Implicit-Submap Driven Framework for Resilient 3D Place Recognition [9.411542547451193]
本稿では,密度に依存しない幾何学的推論により3次元位置認識を再定義するフレームワークを提案する。
具体的には、元のシーンポイント雲密度の干渉に免疫する弾性点に基づく暗黙の3次元表現を導入する。
これら2種類の情報を活用することで,鳥眼視と3Dセグメントの両視点から幾何学的情報を融合する記述子を得る。
論文 参考訳(メタデータ) (2025-06-17T07:04:07Z) - Spatial Knowledge Graph-Guided Multimodal Synthesis [78.11669780958657]
本稿では,空間知識グラフによって導かれる新しいマルチモーダル合成手法を提案する。
実験では、方向や距離を含む多様な空間知識から合成されたデータにより、MLLMの空間知覚と推論能力が著しく向上する。
知識に基づくデータ合成のアイデアが空間知性の発展を促進することを願っている。
論文 参考訳(メタデータ) (2025-05-28T17:50:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。