論文の概要: GeoAlign: Geometric Feature Realignment for MLLM Spatial Reasoning
- arxiv url: http://arxiv.org/abs/2604.12630v1
- Date: Tue, 14 Apr 2026 11:58:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.42385
- Title: GeoAlign: Geometric Feature Realignment for MLLM Spatial Reasoning
- Title(参考訳): GeoAlign: MLLM空間推論のための幾何学的特徴認識
- Authors: Zhaochen Liu, Limeng Qiao, Guanglu Wan, Tingting Jiang,
- Abstract要約: MLLM(Multimodal large language model)は様々な視覚的タスクにおいて顕著な性能を示したが、それでも空間的推論に苦慮している。
近年の取り組みは、3次元基礎モデルから幾何学的特徴を注入することでこれを緩和しているが、静的な単層抽出に依存している。
実要求に応えるために動的に多層幾何学的特徴を集約する新しいフレームワークGeoAlignを提案する。
- 参考スコア(独自算出の注目度): 12.641199394796436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) have exhibited remarkable performance in various visual tasks, yet still struggle with spatial reasoning. Recent efforts mitigate this by injecting geometric features from 3D foundation models, but rely on static single-layer extractions. We identify that such an approach induces a task misalignment bias: the geometric features naturally evolve towards 3D pretraining objectives, which may contradict the heterogeneous spatial demands of MLLMs, rendering any single layer fundamentally insufficient. To resolve this, we propose GeoAlign, a novel framework that dynamically aggregates multi-layer geometric features to realign with the actual demands. GeoAlign constructs a hierarchical geometric feature bank and leverages the MLLM's original visual tokens as content-aware queries to perform layer-wise sparse routing, adaptively fetching the suitable geometric features for each patch. Extensive experiments on VSI-Bench, ScanQA, and SQA3D demonstrate that our compact 4B model effectively achieves state-of-the-art performance, even outperforming larger existing MLLMs.
- Abstract(参考訳): MLLM(Multimodal large language model)は様々な視覚的タスクにおいて顕著な性能を示したが、それでも空間的推論に苦慮している。
近年の取り組みは、3次元基礎モデルから幾何学的特徴を注入することでこれを緩和しているが、静的な単層抽出に依存している。
幾何学的特徴は自然に3次元事前学習対象へと進化し、MLLMの不均一な空間的要求に矛盾する可能性がある。
そこで本研究では,マルチ層幾何学的特徴を動的に集約する新しいフレームワークGeoAlignを提案する。
GeoAlignは階層的な幾何学的特徴バンクを構築し、MLLMのオリジナルビジュアルトークンをコンテント対応クエリとして利用し、レイヤワイドスパースルーティングを実行し、各パッチに適した幾何学的特徴を適応的に取得する。
VSI-Bench, ScanQA, SQA3Dの大規模実験により, 我々のコンパクトな4Bモデルは最先端の性能を効果的に達成し, 既存のMLLMよりも優れていた。
関連論文リスト
- Let Geometry GUIDE: Layer-wise Unrolling of Geometric Priors in Multimodal LLMs [13.627465963609936]
GUIDE(Geometric Unrolling Inside MLLM Early-layers)は、プログレッシブな幾何学的事前注入フレームワークである。
本研究では,現在の意味論に基づいて必要な空間的手がかりを抽出できる文脈認識ゲーティングを提案する。
論文 参考訳(メタデータ) (2026-04-07T10:45:28Z) - SpatialStack: Layered Geometry-Language Fusion for 3D VLM Spatial Reasoning [22.547972947051765]
大規模な視覚言語モデル(VLM)は、まだ信頼性の高い3次元空間推論に苦戦している。
本研究では,階層的な融合フレームワークであるSpatialStackを提案する。
この枠組みに基づいて,複数次元空間推論ベンチマークにおける最先端性能を実現するモデル VLM-SpatialStack を開発した。
論文 参考訳(メタデータ) (2026-03-28T22:49:40Z) - Make Geometry Matter for Spatial Reasoning [62.61667611352403]
視覚言語モデル(VLM)は、強いイメージと映像理解を実現するが、静的シーンとダイナミックビデオの両方で空間的推論を行う能力は限られている。
近年の進歩は、事前訓練された3次元基礎モデルから幾何学トークンをVLMに注入することで、この制限に対処しようとしている。
我々は、VLMが幾何トークンで積極的に推論するように促すことにより、幾何学的問題を作るためのフレームワークGeoSRを提案する。
論文 参考訳(メタデータ) (2026-03-27T17:45:12Z) - GAP-MLLM: Geometry-Aligned Pre-training for Activating 3D Spatial Perception in Multimodal Large Language Models [70.61152292499737]
このギャップは、幾何学的事前の不足から生じるものではなく、訓練パラダイムの誤った調整から生じるものである、と我々は主張する。
既存のアプローチでは、通常、特徴の結合を示唆し、幾何学的な監督なしに下流のタスクを直接最適化する。
本稿では,下流適応前の構造知覚を明示的に活性化する幾何学的事前学習パラダイムであるGAP-MLLMを提案する。
論文 参考訳(メタデータ) (2026-03-17T12:43:48Z) - SpatialGeo:Boosting Spatial Reasoning in Multimodal LLMs via Geometry-Semantics Fusion [23.86761713752287]
MLLM(Multimodal large language model)は、画像および言語タスクにおいて大きな進歩を遂げている。
ほとんどのMLLMは、空間的配置を3次元空間で解釈し推論する限られた空間的推論能力に悩まされている。
幾何学と意味論の階層的融合に基づく新しい視覚エンコーダを提案し,空間認識型視覚埋め込みを生成する。
論文 参考訳(メタデータ) (2025-11-21T15:24:33Z) - MoRE: 3D Visual Geometry Reconstruction Meets Mixture-of-Experts [50.37005070020306]
MoREは、Mixture-of-Experts (MoE)アーキテクチャに基づいた、密集した3Dビジュアル基盤モデルである。
MoREは、幾何推定を安定させ、洗練する信頼に基づく深度補正モジュールを組み込んでいる。
高忠実な表面正規予測のために,高密度なセマンティック特徴とグローバルな3Dバックボーン表現を統合する。
論文 参考訳(メタデータ) (2025-10-31T06:54:27Z) - Enhancing the Geometric Problem-Solving Ability of Multimodal LLMs via Symbolic-Neural Integration [57.95306827012784]
幾何学図のステップワイズ推論パスを自動的に生成するパイプラインであるGeoGenを提案する。
正確なシンボリック推論を活用することで、textbfGeoGenは大規模で高品質な質問応答ペアを生成する。
GeoGen が生成した合成データを用いて,Large Language Model (LLM) である textbfGeoLogic を訓練する。
論文 参考訳(メタデータ) (2025-04-17T09:13:46Z) - FirePlace: Geometric Refinements of LLM Common Sense Reasoning for 3D Object Placement [42.2054752179292]
MLLM(Multimodal Large Language Models)はセマンティックなタスクに優れるが、3Dシーン生成への応用は3D幾何学の限られた基盤によって妨げられる。
本稿では,(1)3次元の幾何学的推論と関連する幾何学的詳細の抽出に既存のMLLMを適用した新しいフレームワークFirePlaceを紹介し,(2)抽出した低レベル幾何学の幾何学的制約の構築と解決,(3)常識に適合した最終配置のためのプルーニングを紹介する。
論文 参考訳(メタデータ) (2025-03-06T19:34:15Z) - LLMI3D: MLLM-based 3D Perception from a Single 2D Image [77.13869413871028]
マルチモーダルな大言語モデル(MLLM)は、一般的な能力では優れているが、3Dタスクでは性能が劣る。
本稿では,3次元局所空間物体認識の弱さ,テキストに基づく幾何学的数値出力の低さ,カメラ焦点変動の処理能力の低下に対する解決策を提案する。
我々は,事前学習したMLLMに対してパラメータ効率の良い微調整を採用し,強力な3次元知覚MLLMであるLLMI3Dを開発した。
論文 参考訳(メタデータ) (2024-08-14T10:00:16Z) - GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。
従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。
GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-06-21T17:49:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。