論文の概要: Enhancing MLLM Spatial Understanding via Active 3D Scene Exploration for Multi-Perspective Reasoning
- arxiv url: http://arxiv.org/abs/2604.06725v1
- Date: Wed, 08 Apr 2026 06:47:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.37142
- Title: Enhancing MLLM Spatial Understanding via Active 3D Scene Exploration for Multi-Perspective Reasoning
- Title(参考訳): マルチパースペクティブ推論のためのアクティブ3次元シーン探索によるMLLM空間理解の強化
- Authors: Jiahua Chen, Qihong Tang, Weinong Wang, Qi Fan,
- Abstract要約: 明示的な3次元再構成を基礎としたビジュアル・チェーン・オブ・ソート・メカニズムを導入したテクスティングフリーなフレームワークを提案する。
このフレームワークは、3DSRBenchやRel3Dといった主要なベンチマークにおいて、特別な空間モデルや汎用MLLMよりも優れている。
- 参考スコア(独自算出の注目度): 10.542346290671114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although Multimodal Large Language Models have achieved remarkable progress, they still struggle with complex 3D spatial reasoning due to the reliance on 2D visual priors. Existing approaches typically mitigate this limitation either through computationally expensive post-training procedures on limited 3D datasets or through rigid tool-calling mechanisms that lack explicit geometric understanding and viewpoint flexibility. To address these challenges, we propose a \textit{training-free} framework that introduces a Visual Chain-of-Thought mechanism grounded in explicit 3D reconstruction. The proposed pipeline first reconstructs a high-fidelity 3D mesh from a single image using MLLM-guided keyword extraction and mask generation at multiple granularities. Subsequently, the framework leverages an external knowledge base to iteratively compute optimal camera extrinsic parameters and synthesize novel views, thereby emulating human perspective-taking. Extensive experiments demonstrate that the proposed approach significantly enhances spatial comprehension. Specifically, the framework outperforms specialized spatial models and general-purpose MLLMs, including \textit{GPT-5.2} and \textit{Gemini-2.5-Flash}, on major benchmarks such as 3DSRBench and Rel3D.
- Abstract(参考訳): マルチモーダル大規模言語モデルは目覚ましい進歩を遂げているが、2次元の視覚的先行性に依存しているため、複雑な3次元空間的推論に苦慮している。
既存のアプローチでは、計算的に高価な3Dデータセットのポストトレーニング手順や、明確な幾何学的理解と視点の柔軟性に欠ける厳格なツール呼び出しメカニズムによって、この制限を緩和するのが一般的である。
これらの課題に対処するために、明示的な3D再構成を基盤としたVisual Chain-of-Thought機構を導入する、textit{training-free}フレームワークを提案する。
提案したパイプラインは、MLLM誘導のキーワード抽出とマスク生成を複数の粒度で行い、単一の画像から高忠実度3Dメッシュを再構成する。
その後、このフレームワークは外部知識ベースを利用して、最適なカメラ外在パラメータを反復的に計算し、新しいビューを合成し、人間の視点決定をエミュレートする。
大規模な実験により,提案手法は空間的理解を著しく向上させることが示された。
具体的には、このフレームワークは3DSRBenchやRel3Dといった主要なベンチマークにおいて、特別な空間モデルや、 \textit{GPT-5.2} や \textit{Gemini-2.5-Flash} などの汎用MLLMよりも優れている。
関連論文リスト
- Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding [50.098085774845195]
本稿では,大規模生成モデルにおいて暗黙の空間的先行性を活用することで,パラダイムシフトを提案する。
GeneEGA-3D (Video Extracted Generative Awareness) は,事前学習した映像拡散モデルを潜在世界シミュレータとして再利用するプラグイン・アンド・プレイ・フレームワークである。
論文 参考訳(メタデータ) (2026-03-19T17:59:58Z) - GAP-MLLM: Geometry-Aligned Pre-training for Activating 3D Spatial Perception in Multimodal Large Language Models [70.61152292499737]
このギャップは、幾何学的事前の不足から生じるものではなく、訓練パラダイムの誤った調整から生じるものである、と我々は主張する。
既存のアプローチでは、通常、特徴の結合を示唆し、幾何学的な監督なしに下流のタスクを直接最適化する。
本稿では,下流適応前の構造知覚を明示的に活性化する幾何学的事前学習パラダイムであるGAP-MLLMを提案する。
論文 参考訳(メタデータ) (2026-03-17T12:43:48Z) - SpatialMosaic: A Multiview VLM Dataset for Partial Visibility [25.874299974251965]
本稿では,現実的な空間推論QAを構築する,スケーラブルなマルチビューデータ生成とアノテーションパイプラインを提案する。
本研究では,現実的かつ困難なシナリオ下での多視点空間推論評価のためのベンチマークであるSpatialMosaic-Benchを紹介する。
また、3次元再構成モデルを視覚言語モデル内の幾何学エンコーダとして統合するハイブリッドフレームワークであるSpatialMosaicVLMを提案する。
論文 参考訳(メタデータ) (2025-12-29T10:48:54Z) - S$^2$-MLLM: Boosting Spatial Reasoning Capability of MLLMs for 3D Visual Grounding with Structural Guidance [20.55536735670125]
3Dビジュアルグラウンド(3DVG)は、自然言語記述に基づく3Dシーンにおけるオブジェクトの配置に焦点を当てている。
MLLM(Multi-modal Large Language Models)の最近の進歩は、それらを3DVGに拡張する研究の動機となっている。
S$2$-MLLMは、暗黙の空間的推論を通じてMLLMの空間的推論を強化する効率的なフレームワークである。
論文 参考訳(メタデータ) (2025-12-01T03:08:34Z) - IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction [82.53307702809606]
人間は自然に3次元世界の幾何学的構造と意味的内容を中間次元として知覚する。
本稿では,空間再構成とインスタンスレベルの文脈理解の両面での知識を統合するために,IGGT (InstanceGrounded Geometry Transformer) を提案する。
論文 参考訳(メタデータ) (2025-10-26T14:57:44Z) - Vision-Language Models as Differentiable Semantic and Spatial Rewards for Text-to-3D Generation [23.359745449828363]
本稿では,新しいテキストから3D生成フレームワークであるVLM3Dを提案する。
これは、大きな視覚言語モデルをScore Distillation Samplingパイプラインに統合し、差別化可能なセマンティクスと空間的プリエントとして利用する。
VLM3Dは, 意味的忠実度, 幾何学的コヒーレンス, 空間的正当性において, 従来のSDS法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-19T08:54:52Z) - SeqAffordSplat: Scene-level Sequential Affordance Reasoning on 3D Gaussian Splatting [85.87902260102652]
本稿では, 連続3次元ガウシアン・アフラマンス推論の課題について紹介する。
次に,SeqSplatNetを提案する。SqSplatNetは,命令を直接3Dアベイランスマスクのシーケンスにマッピングするエンドツーエンドフレームワークである。
本手法は,1段階のインタラクションから,シーンレベルでの複雑なシーケンシャルなタスクへの可利用性推論を効果的に向上させる。
論文 参考訳(メタデータ) (2025-07-31T17:56:55Z) - Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence [13.168559963356952]
純粋に2次元の観察から空間的推論を行う新しいフレームワークであるSpatial-MLLMを提案する。
我々の重要な洞察は、フィードフォワード視覚幾何学基礎モデルに先立って、強い構造を解き放つことである。
コネクタは、両方の機能を統合された視覚トークンに統合し、空間的理解を強化する。
論文 参考訳(メタデータ) (2025-05-29T17:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。