論文の概要: SpatialGeo:Boosting Spatial Reasoning in Multimodal LLMs via Geometry-Semantics Fusion
- arxiv url: http://arxiv.org/abs/2511.17308v1
- Date: Fri, 21 Nov 2025 15:24:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:19.075117
- Title: SpatialGeo:Boosting Spatial Reasoning in Multimodal LLMs via Geometry-Semantics Fusion
- Title(参考訳): SpaceGeo:Geometry-Semantics FusionによるマルチモーダルLDMにおけるブースティング空間推論
- Authors: Jiajie Guo, Qingpeng Zhu, Jin Zeng, Xiaolong Wu, Changyong He, Weida Wang,
- Abstract要約: MLLM(Multimodal large language model)は、画像および言語タスクにおいて大きな進歩を遂げている。
ほとんどのMLLMは、空間的配置を3次元空間で解釈し推論する限られた空間的推論能力に悩まされている。
幾何学と意味論の階層的融合に基づく新しい視覚エンコーダを提案し,空間認識型視覚埋め込みを生成する。
- 参考スコア(独自算出の注目度): 23.86761713752287
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) have achieved significant progress in image and language tasks due to the strong reasoning capability of large language models (LLMs). Nevertheless, most MLLMs suffer from limited spatial reasoning ability to interpret and infer spatial arrangements in three-dimensional space. In this work, we propose a novel vision encoder based on hierarchical fusion of geometry and semantics features, generating spatial-aware visual embedding and boosting the spatial grounding capability of MLLMs. Specifically, we first unveil that the spatial ambiguity shortcoming stems from the lossy embedding of the vision encoder utilized in most existing MLLMs (e.g., CLIP), restricted to instance-level semantic features. This motivates us to complement CLIP with the geometry features from vision-only self-supervised learning via a hierarchical adapter, enhancing the spatial awareness in the proposed SpatialGeo. The network is efficiently trained using pretrained LLaVA model and optimized with random feature dropping to avoid trivial solutions relying solely on the CLIP encoder. Experimental results show that SpatialGeo improves the accuracy in spatial reasoning tasks, enhancing state-of-the-art models by at least 8.0% in SpatialRGPT-Bench with approximately 50% less memory cost during inference. The source code is available via https://ricky-plus.github.io/SpatialGeoPages/.
- Abstract(参考訳): マルチモーダルな大言語モデル(MLLM)は,大規模言語モデル(LLM)の強い推論能力のため,画像および言語タスクにおいて大きな進歩を遂げている。
しかしながら、ほとんどのMLLMは3次元空間における空間配置を解釈し推論する限られた空間推論能力に悩まされている。
本研究では,幾何学的特徴と意味論的特徴の階層的融合に基づく新しい視覚エンコーダを提案し,空間認識型視覚埋め込みを生成し,MLLMの空間的接地能力を向上する。
具体的には,ほとんどの既存のMLLM(例えばCLIP)で使用されている視覚エンコーダが,インスタンスレベルのセマンティック機能に制限された場合に,空間的あいまいさの欠点が生じることを最初に明らかにした。
このことはCLIPを、階層型アダプターによる視覚のみの自己教師型学習の幾何学的特徴と補完し、提案するSpatialGeoにおける空間的認識を高める動機である。
ネットワークは、事前訓練されたLLaVAモデルを用いて効率的にトレーニングされ、CLIPエンコーダのみに依存する自明なソリューションを避けるために、ランダムな機能ドロップで最適化される。
実験結果から,SpatialGeoは空間推論タスクの精度を向上し,SpatialRGPT-Benchの精度を少なくとも8.0%向上させ,推論時のメモリコストを約50%削減した。
ソースコードはhttps://ricky-plus.github.io/SpatialGeoPages/から入手できる。
関連論文リスト
- SpatialThinker: Reinforcing 3D Reasoning in Multimodal LLMs via Spatial Rewards [37.39035418889281]
構造的空間接地と多段階推論を統合するためにRLで訓練された3D対応MLLMであるSpatialThinkerを紹介する。
このモデルは,タスク関連オブジェクトと空間関係のシーングラフを構築し,密集した空間報酬による回答への推論を行うことにより,人間のような空間知覚をシミュレートする。
論文 参考訳(メタデータ) (2025-11-10T18:52:47Z) - Actial: Activate Spatial Reasoning Ability of Multimodal Large Language Models [75.45940282834327]
本稿では,MLLMの空間的推論能力の評価と改善を目的とした視点学習を紹介する。
多様な視点とそれに対応する質問応答対を持つ100Kオブジェクト中心のイメージペアからなるViewpoint-100Kデータセットを提案する。
このアプローチでは2段階の微調整戦略を採用し,複数のタスクにまたがる大幅な改善を実現している。
論文 参考訳(メタデータ) (2025-11-03T14:27:00Z) - See&Trek: Training-Free Spatial Prompting for Multimodal Large Language Model [33.18304419115947]
SEE&TREKは、視覚のみの制約下でのマルチモーダル大言語モデル(MLLM)の空間的理解を強化する最初のトレーニングフリープロンプトフレームワークである。
視覚的多様性の向上と運動再建に注力する。
本手法はトレーニング・GPUフリーであり,1回のフォワードパスしか必要とせず,既存のMLLMSにシームレスに統合できる。
論文 参考訳(メタデータ) (2025-09-19T15:30:26Z) - Why Do MLLMs Struggle with Spatial Understanding? A Systematic Analysis from Data to Architecture [16.15618237704827]
データと建築の両面から空間的理解を体系的に分析する。
データの観点からは、トレーニングデータが増加するにつれて空間理解の性能は急速に収束する。
アーキテクチャの観点からは、空間的理解は言語モデルよりも視覚エンコーダ内の位置エンコーダに大きく依存していることが分かる。
論文 参考訳(メタデータ) (2025-09-02T14:22:43Z) - FloorplanQA: A Benchmark for Spatial Reasoning in LLMs using Structured Representations [78.65988445433844]
FloorplanQAは、大規模言語モデルにおける空間的推論を評価するための診断ベンチマークである。
このベンチマークでは、距離測定、可視性、経路探索、制約空間内のオブジェクト配置など、中核的な空間的タスクをカバーしている。
論文 参考訳(メタデータ) (2025-07-10T11:16:48Z) - Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence [13.168559963356952]
純粋に2次元の観察から空間的推論を行う新しいフレームワークであるSpatial-MLLMを提案する。
我々の重要な洞察は、フィードフォワード視覚幾何学基礎モデルに先立って、強い構造を解き放つことである。
コネクタは、両方の機能を統合された視覚トークンに統合し、空間的理解を強化する。
論文 参考訳(メタデータ) (2025-05-29T17:59:04Z) - Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z) - SpatialRGPT: Grounded Spatial Reasoning in Vision Language Models [68.13636352687257]
VLMの空間知覚と推論能力を高めるために空間領域GPT(SpatialRGPT)を導入する。
推測中、ユーザが指定した領域の提案が提供されると、SpatialRGPTは相対的な方向と距離を正確に知覚できる。
本研究では,空間的推論タスクにおける局所的プロンプトと非局所的プロンプトの双方において,空間的RGPTにより性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-06-03T17:59:06Z) - Evaluating Spatial Understanding of Large Language Models [26.436450329727645]
大規模言語モデルは、様々なタスクにまたがる顕著な能力を示している。
近年の研究では、LLM表現は基礎となる基礎概念の側面を暗黙的に捉えていることが示唆されている。
自然言語ナビゲーションタスクを設計し,空間構造を表現・推論するLLMの能力を評価する。
論文 参考訳(メタデータ) (2023-10-23T03:44:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。