論文の概要: GAP-MLLM: Geometry-Aligned Pre-training for Activating 3D Spatial Perception in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2603.16461v1
- Date: Tue, 17 Mar 2026 12:43:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.280187
- Title: GAP-MLLM: Geometry-Aligned Pre-training for Activating 3D Spatial Perception in Multimodal Large Language Models
- Title(参考訳): GAP-MLLM:マルチモーダル大言語モデルにおける3次元空間知覚の活性化のための幾何学的事前学習
- Authors: Jiaxin Zhang, Junjun Jiang, Haijie Li, Youyu Chen, Kui Jiang, Dave Zhenyu Chen,
- Abstract要約: このギャップは、幾何学的事前の不足から生じるものではなく、訓練パラダイムの誤った調整から生じるものである、と我々は主張する。
既存のアプローチでは、通常、特徴の結合を示唆し、幾何学的な監督なしに下流のタスクを直接最適化する。
本稿では,下流適応前の構造知覚を明示的に活性化する幾何学的事前学習パラダイムであるGAP-MLLMを提案する。
- 参考スコア(独自算出の注目度): 70.61152292499737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) demonstrate exceptional semantic reasoning but struggle with 3D spatial perception when restricted to pure RGB inputs. Despite leveraging implicit geometric priors from 3D reconstruction models, image-based methods still exhibit a notable performance gap compared to methods using explicit 3D data. We argue that this gap does not arise from insufficient geometric priors, but from a misalignment in the training paradigm: text-dominated fine-tuning fails to activate geometric representations within MLLMs. Existing approaches typically resort to naive feature concatenation and optimize directly for downstream tasks without geometry-specific supervision, leading to suboptimal structural utilization. To address this limitation, we propose GAP-MLLM, a Geometry-Aligned Pre-training paradigm that explicitly activates structural perception before downstream adaptation. Specifically, we introduce a visual-prompted joint task that compels the MLLMs to predict sparse pointmaps alongside semantic labels, thereby enforcing geometric awareness. Furthermore, we design a multi-level progressive fusion module with a token-level gating mechanism, enabling adaptive integration of geometric priors without suppressing semantic reasoning. Extensive experiments demonstrate that GAP-MLLM significantly enhances geometric feature fusion and consistently enhances performance across 3D visual grounding, 3D dense captioning, and 3D video object detection tasks.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、純粋なRGB入力に制限された場合の3次元空間認識に難色を示す。
3次元再構成モデルからの暗黙的な幾何的先行性を活用するにもかかわらず、画像ベースの手法は、明示的な3次元データを用いた手法と比較しても顕著な性能差を示している。
我々は、このギャップは、不十分な幾何学的先入観から生じるものではなく、訓練パラダイムにおける不整合から生じるものであると主張し、テキストによる微調整はMLLM内の幾何学的表現を活性化しない。
既存のアプローチでは、通常、特徴の結合を単純化して、幾何学的な監督なしに下流のタスクを直接最適化し、最適な構造的利用をもたらす。
この制限に対処するために、下流適応前に構造知覚を明示的に活性化する幾何適応型事前学習パラダイムであるGAP-MLLMを提案する。
具体的には、MLLMを補完し、意味ラベルとともにスパースポイントマップを予測し、幾何学的認識を強制する視覚プロンプト共同タスクを導入する。
さらに,トークンレベルのゲーティング機構を備えたマルチレベルプログレッシブ・フュージョン・モジュールを設計し,意味的推論を抑えることなく,幾何学的事前の適応的な統合を可能にする。
GAP-MLLMは幾何学的特徴融合を著しく向上し、3次元視覚的接地、3次元高密度キャプション、および3次元映像オブジェクト検出タスクのパフォーマンスを一貫して向上させる。
関連論文リスト
- Boosting MLLM Spatial Reasoning with Geometrically Referenced 3D Scene Representations [22.197086495542816]
幾何学的に参照された3次元シーン表現(GR3D)を導入する。
GR3Dは画像内のオブジェクトにユニークなIDを付加し、3Dの幾何学的属性をこれらのIDによってインデックスされたテキスト参照としてエンコードする。
この表現により、MLLMは数学的推論において高度な言語ベースのスキルを用いて3Dキューを解釈することができる。
論文 参考訳(メタデータ) (2026-03-09T16:42:43Z) - IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction [82.53307702809606]
人間は自然に3次元世界の幾何学的構造と意味的内容を中間次元として知覚する。
本稿では,空間再構成とインスタンスレベルの文脈理解の両面での知識を統合するために,IGGT (InstanceGrounded Geometry Transformer) を提案する。
論文 参考訳(メタデータ) (2025-10-26T14:57:44Z) - Vid-LLM: A Compact Video-based 3D Multimodal LLM with Reconstruction-Reasoning Synergy [4.1703677379815565]
外部の3Dデータを必要としないビデオ入力を直接処理するビデオベースの3D-MLLMであるVid-LLMを提案する。
本手法では, 偏見の知覚性能を向上させるために, 幾何先行法を直接的に用いた。
各種ベンチマーク実験により,3次元質問応答,3次元キャプション,3次元視覚的接地作業において,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2025-09-29T07:34:18Z) - Seeing 3D Through 2D Lenses: 3D Few-Shot Class-Incremental Learning via Cross-Modal Geometric Rectification [59.17489431187807]
本稿では,CLIPの階層的空間意味論を活用することで3次元幾何学的忠実度を高めるフレームワークを提案する。
本手法は3次元のクラスインクリメンタル学習を著しく改善し,テクスチャバイアスに対して優れた幾何コヒーレンスとロバスト性を実現する。
論文 参考訳(メタデータ) (2025-09-18T13:45:08Z) - Point Linguist Model: Segment Any Object via Bridged Large 3D-Language Model [51.02616473941499]
大規模言語モデル(LLM)による3Dオブジェクトのセグメンテーションは、その広範囲なセマンティクス、タスクの柔軟性、強力な一般化により、広く普及しているパラダイムとなっている。
LLMは高レベルなセマンティックトークンを処理し、3次元の点雲は密度の高い幾何学的構造のみを伝達する。
本稿では,LLMと高密度3次元点雲の間の表現ギャップを橋渡しする一般フレームワークであるポイント言語モデル(PLM)を提案する。
論文 参考訳(メタデータ) (2025-09-09T15:01:28Z) - 3D-Aware Vision-Language Models Fine-Tuning with Geometric Distillation [17.294440057314812]
VLM(Vision-Language Models)は様々な視覚的・言語的タスクにおいて顕著な性能を示した。
人為的な幾何学的手がかりを予め訓練されたVLMに注入するフレームワークであるGeometric Distillationを提案する。
本手法は、自然な画像テキスト入力と互換性を保ちながら、表現を幾何学的に認識するように形成する。
論文 参考訳(メタデータ) (2025-06-11T15:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。