論文の概要: Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence
- arxiv url: http://arxiv.org/abs/2505.23747v1
- Date: Thu, 29 May 2025 17:59:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:08.078012
- Title: Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence
- Title(参考訳): 空間MLLM:視覚型空間知能におけるMLLM能力の向上
- Authors: Diankun Wu, Fangfu Liu, Yi-Hsin Hung, Yueqi Duan,
- Abstract要約: 純粋に2次元の観察から空間的推論を行う新しいフレームワークであるSpatial-MLLMを提案する。
我々の重要な洞察は、フィードフォワード視覚幾何学基礎モデルに先立って、強い構造を解き放つことである。
コネクタは、両方の機能を統合された視覚トークンに統合し、空間的理解を強化する。
- 参考スコア(独自算出の注目度): 13.168559963356952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Multimodal Large Language Models (MLLMs) have significantly enhanced performance on 2D visual tasks. However, improving their spatial intelligence remains a challenge. Existing 3D MLLMs always rely on additional 3D or 2.5D data to incorporate spatial awareness, restricting their utility in scenarios with only 2D inputs, such as images or videos. In this paper, we present Spatial-MLLM, a novel framework for visual-based spatial reasoning from purely 2D observations. Unlike conventional video MLLMs which rely on CLIP-based visual encoders optimized for semantic understanding, our key insight is to unleash the strong structure prior from the feed-forward visual geometry foundation model. Specifically, we propose a dual-encoder architecture: a pretrained 2D visual encoder to extract semantic features, and a spatial encoder-initialized from the backbone of the visual geometry model-to extract 3D structure features. A connector then integrates both features into unified visual tokens for enhanced spatial understanding. Furthermore, we propose a space-aware frame sampling strategy at inference time, which selects the spatially informative frames of a video sequence, ensuring that even under limited token length, the model focuses on frames critical for spatial reasoning. Beyond architecture improvements, we construct the Spatial-MLLM-120k dataset and train the model on it using supervised fine-tuning and GRPO. Extensive experiments on various real-world datasets demonstrate that our spatial-MLLM achieves state-of-the-art performance in a wide range of visual-based spatial understanding and reasoning tasks. Project page: https://diankun-wu.github.io/Spatial-MLLM/.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の最近の進歩は、2次元視覚タスクの性能を大幅に向上させた。
しかし、空間知性の向上は依然として課題である。
既存の3D MLLMは、画像やビデオなどの2D入力のみのシナリオにおいて、空間的認識を組み込むために、常に追加の3Dまたは2.5Dデータに依存している。
本稿では、純粋に2次元の観察から視覚に基づく空間推論のための新しいフレームワークであるSpatial-MLLMを提案する。
セマンティック理解に最適化されたCLIPベースのビジュアルエンコーダを利用する従来のビデオMLLMとは異なり、我々の重要な洞察は、フィードフォワード視覚幾何学基礎モデルから強い構造を解き放つことである。
具体的には、セマンティック特徴を抽出するための事前訓練された2次元視覚エンコーダアーキテクチャと、視覚幾何学モデルのバックボーンから3次元構造特徴を抽出するために初期化された空間エンコーダを提案する。
コネクタは、両方の機能を統合された視覚トークンに統合し、空間的理解を強化する。
さらに,ビデオシーケンスの空間的情報化フレームを選択し,トークン長が制限されている場合でも,空間的推論に欠かせないフレームに焦点を当てた空間認識型フレームサンプリング戦略を提案する。
アーキテクチャの改善以外にも、Spatial-MLLM-120kデータセットを構築し、教師付き微調整とGRPOを用いてモデルをトレーニングする。
様々な実世界のデータセットに対する大規模な実験により、我々の空間MLLMは、幅広い視覚的空間的理解と推論タスクにおいて最先端のパフォーマンスを達成することを示した。
プロジェクトページ: https://diankun-wu.github.io/Spatial-MLLM/。
関連論文リスト
- VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction [86.82819259860186]
本稿では,視覚言語モデル(VLM)のための統合フレームワークであるVLM-3Rについて紹介する。
VLM-3Rは、空間的理解を表す暗黙の3Dトークンを導出する幾何学エンコーダを用いて、モノクロビデオフレームを処理する。
論文 参考訳(メタデータ) (2025-05-26T17:56:30Z) - MM-Spatial: Exploring 3D Spatial Understanding in Multimodal LLMs [13.678235444299286]
MLLM(Multimodal large language model)は、2次元の視覚的理解に優れるが、3次元空間を推論する能力には限界がある。
本研究では,1)新しい教師付き微調整データセットの導入,2)屋内シーンに焦点を当てた新しい評価ベンチマークを導入するために,オープンセットアノテーションを用いた大規模高品質3Dシーンデータを活用する。
論文 参考訳(メタデータ) (2025-03-17T12:34:22Z) - LayoutVLM: Differentiable Optimization of 3D Layout via Vision-Language Models [57.92316645992816]
空間的推論は人間の認知の基本的側面であり、三次元空間における物体の直感的な理解と操作を可能にする。
視覚言語モデル(VLM)のセマンティック知識を活用するフレームワークおよびシーンレイアウト表現であるLayoutVLMを紹介する。
本稿では,既存のシーンデータセットから抽出したシーンレイアウト表現を用いた微調整VLMによる推論性能の向上を実証する。
論文 参考訳(メタデータ) (2024-12-03T06:15:04Z) - Video-3D LLM: Learning Position-Aware Video Representation for 3D Scene Understanding [19.382210260928776]
Video-3D LLMは3Dシーンをダイナミックビデオとして扱い、3D位置エンコーディングをこれらの表現に組み込む。
本モデルは,複数の3次元シーン理解ベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-11-30T14:28:53Z) - LLMI3D: MLLM-based 3D Perception from a Single 2D Image [77.13869413871028]
マルチモーダルな大言語モデル(MLLM)は、一般的な能力では優れているが、3Dタスクでは性能が劣る。
本稿では,3次元局所空間物体認識の弱さ,テキストに基づく幾何学的数値出力の低さ,カメラ焦点変動の処理能力の低下に対する解決策を提案する。
我々は,事前学習したMLLMに対してパラメータ効率の良い微調整を採用し,強力な3次元知覚MLLMであるLLMI3Dを開発した。
論文 参考訳(メタデータ) (2024-08-14T10:00:16Z) - Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。