論文の概要: Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence
- arxiv url: http://arxiv.org/abs/2505.23747v1
- Date: Thu, 29 May 2025 17:59:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:08.078012
- Title: Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence
- Title(参考訳): 空間MLLM:視覚型空間知能におけるMLLM能力の向上
- Authors: Diankun Wu, Fangfu Liu, Yi-Hsin Hung, Yueqi Duan,
- Abstract要約: 純粋に2次元の観察から空間的推論を行う新しいフレームワークであるSpatial-MLLMを提案する。
我々の重要な洞察は、フィードフォワード視覚幾何学基礎モデルに先立って、強い構造を解き放つことである。
コネクタは、両方の機能を統合された視覚トークンに統合し、空間的理解を強化する。
- 参考スコア(独自算出の注目度): 13.168559963356952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Multimodal Large Language Models (MLLMs) have significantly enhanced performance on 2D visual tasks. However, improving their spatial intelligence remains a challenge. Existing 3D MLLMs always rely on additional 3D or 2.5D data to incorporate spatial awareness, restricting their utility in scenarios with only 2D inputs, such as images or videos. In this paper, we present Spatial-MLLM, a novel framework for visual-based spatial reasoning from purely 2D observations. Unlike conventional video MLLMs which rely on CLIP-based visual encoders optimized for semantic understanding, our key insight is to unleash the strong structure prior from the feed-forward visual geometry foundation model. Specifically, we propose a dual-encoder architecture: a pretrained 2D visual encoder to extract semantic features, and a spatial encoder-initialized from the backbone of the visual geometry model-to extract 3D structure features. A connector then integrates both features into unified visual tokens for enhanced spatial understanding. Furthermore, we propose a space-aware frame sampling strategy at inference time, which selects the spatially informative frames of a video sequence, ensuring that even under limited token length, the model focuses on frames critical for spatial reasoning. Beyond architecture improvements, we construct the Spatial-MLLM-120k dataset and train the model on it using supervised fine-tuning and GRPO. Extensive experiments on various real-world datasets demonstrate that our spatial-MLLM achieves state-of-the-art performance in a wide range of visual-based spatial understanding and reasoning tasks. Project page: https://diankun-wu.github.io/Spatial-MLLM/.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の最近の進歩は、2次元視覚タスクの性能を大幅に向上させた。
しかし、空間知性の向上は依然として課題である。
既存の3D MLLMは、画像やビデオなどの2D入力のみのシナリオにおいて、空間的認識を組み込むために、常に追加の3Dまたは2.5Dデータに依存している。
本稿では、純粋に2次元の観察から視覚に基づく空間推論のための新しいフレームワークであるSpatial-MLLMを提案する。
セマンティック理解に最適化されたCLIPベースのビジュアルエンコーダを利用する従来のビデオMLLMとは異なり、我々の重要な洞察は、フィードフォワード視覚幾何学基礎モデルから強い構造を解き放つことである。
具体的には、セマンティック特徴を抽出するための事前訓練された2次元視覚エンコーダアーキテクチャと、視覚幾何学モデルのバックボーンから3次元構造特徴を抽出するために初期化された空間エンコーダを提案する。
コネクタは、両方の機能を統合された視覚トークンに統合し、空間的理解を強化する。
さらに,ビデオシーケンスの空間的情報化フレームを選択し,トークン長が制限されている場合でも,空間的推論に欠かせないフレームに焦点を当てた空間認識型フレームサンプリング戦略を提案する。
アーキテクチャの改善以外にも、Spatial-MLLM-120kデータセットを構築し、教師付き微調整とGRPOを用いてモデルをトレーニングする。
様々な実世界のデータセットに対する大規模な実験により、我々の空間MLLMは、幅広い視覚的空間的理解と推論タスクにおいて最先端のパフォーマンスを達成することを示した。
プロジェクトページ: https://diankun-wu.github.io/Spatial-MLLM/。
関連論文リスト
- S$^2$-MLLM: Boosting Spatial Reasoning Capability of MLLMs for 3D Visual Grounding with Structural Guidance [20.55536735670125]
3Dビジュアルグラウンド(3DVG)は、自然言語記述に基づく3Dシーンにおけるオブジェクトの配置に焦点を当てている。
MLLM(Multi-modal Large Language Models)の最近の進歩は、それらを3DVGに拡張する研究の動機となっている。
S$2$-MLLMは、暗黙の空間的推論を通じてMLLMの空間的推論を強化する効率的なフレームワークである。
論文 参考訳(メタデータ) (2025-12-01T03:08:34Z) - SpatialGeo:Boosting Spatial Reasoning in Multimodal LLMs via Geometry-Semantics Fusion [23.86761713752287]
MLLM(Multimodal large language model)は、画像および言語タスクにおいて大きな進歩を遂げている。
ほとんどのMLLMは、空間的配置を3次元空間で解釈し推論する限られた空間的推論能力に悩まされている。
幾何学と意味論の階層的融合に基づく新しい視覚エンコーダを提案し,空間認識型視覚埋め込みを生成する。
論文 参考訳(メタデータ) (2025-11-21T15:24:33Z) - Abstract 3D Perception for Spatial Intelligence in Vision-Language Models [100.13033631690114]
視覚言語モデル(VLM)は、空間認識や物理的理解といった3D関連課題に苦しむ。
我々は,VLMの幾何学的構造と物理力学を符号化するために,抽象的境界ボックスを利用するフレームワークであるSandboxVLMを紹介した。
提案手法は空間知能を常に向上させ,SAT Realの8.3%のゲインをベースライン法と比較して達成する。
論文 参考訳(メタデータ) (2025-11-14T04:16:09Z) - SpatialThinker: Reinforcing 3D Reasoning in Multimodal LLMs via Spatial Rewards [37.39035418889281]
構造的空間接地と多段階推論を統合するためにRLで訓練された3D対応MLLMであるSpatialThinkerを紹介する。
このモデルは,タスク関連オブジェクトと空間関係のシーングラフを構築し,密集した空間報酬による回答への推論を行うことにより,人間のような空間知覚をシミュレートする。
論文 参考訳(メタデータ) (2025-11-10T18:52:47Z) - Actial: Activate Spatial Reasoning Ability of Multimodal Large Language Models [75.45940282834327]
本稿では,MLLMの空間的推論能力の評価と改善を目的とした視点学習を紹介する。
多様な視点とそれに対応する質問応答対を持つ100Kオブジェクト中心のイメージペアからなるViewpoint-100Kデータセットを提案する。
このアプローチでは2段階の微調整戦略を採用し,複数のタスクにまたがる大幅な改善を実現している。
論文 参考訳(メタデータ) (2025-11-03T14:27:00Z) - Spatial-ORMLLM: Improve Spatial Relation Understanding in the Operating Room with Multimodal Large Language Model [1.8302608976873713]
空間ORMLLMは手術室における3次元空間推論のための視覚言語モデルである。
推定アルゴリズムにより抽出された3次元空間知識の豊富な2次元モダリティ入力を組み込む。
専門家のアノテーションやセンサー入力を使わずに、堅牢な3Dシーン推論を提供する。
論文 参考訳(メタデータ) (2025-08-11T17:17:20Z) - VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction [86.82819259860186]
本稿では,視覚言語モデル(VLM)のための統合フレームワークであるVLM-3Rについて紹介する。
VLM-3Rは、空間的理解を表す暗黙の3Dトークンを導出する幾何学エンコーダを用いて、モノクロビデオフレームを処理する。
論文 参考訳(メタデータ) (2025-05-26T17:56:30Z) - Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。
我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。
その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文 参考訳(メタデータ) (2025-05-26T15:28:17Z) - From Flatland to Space: Teaching Vision-Language Models to Perceive and Reason in 3D [32.547597353581594]
本研究では,3次元地上構造を持つシーンデータ上に構築された新しい2次元空間データ生成およびアノテーションパイプラインを提案する。
複数の公開データセットにまたがって数千のシーンから生成される大規模データセットであるSPAR-7Mを構築した。
さらに,空間能力をより包括的に評価するためのベンチマークであるSPAR-Benchを紹介する。
論文 参考訳(メタデータ) (2025-03-29T04:51:50Z) - MLLM-For3D: Adapting Multimodal Large Language Model for 3D Reasoning Segmentation [87.30919771444117]
推論セグメンテーション(Reasoning segmentation)は、人間の意図と空間的推論に基づく複雑なシーンにおける対象オブジェクトのセグメンテーションを目的としている。
最近のマルチモーダル大言語モデル(MLLM)は印象的な2次元画像推論セグメンテーションを実証している。
本稿では,2次元MLLMから3次元シーン理解へ知識を伝達するフレームワークであるMLLM-For3Dを紹介する。
論文 参考訳(メタデータ) (2025-03-23T16:40:20Z) - MM-Spatial: Exploring 3D Spatial Understanding in Multimodal LLMs [13.678235444299286]
MLLM(Multimodal large language model)は、2次元の視覚的理解に優れるが、3次元空間を推論する能力には限界がある。
本研究では,1)新しい教師付き微調整データセットの導入,2)屋内シーンに焦点を当てた新しい評価ベンチマークを導入するために,オープンセットアノテーションを用いた大規模高品質3Dシーンデータを活用する。
論文 参考訳(メタデータ) (2025-03-17T12:34:22Z) - LayoutVLM: Differentiable Optimization of 3D Layout via Vision-Language Models [57.92316645992816]
空間的推論は人間の認知の基本的側面であり、三次元空間における物体の直感的な理解と操作を可能にする。
視覚言語モデル(VLM)のセマンティック知識を活用するフレームワークおよびシーンレイアウト表現であるLayoutVLMを紹介する。
本稿では,既存のシーンデータセットから抽出したシーンレイアウト表現を用いた微調整VLMによる推論性能の向上を実証する。
論文 参考訳(メタデータ) (2024-12-03T06:15:04Z) - Video-3D LLM: Learning Position-Aware Video Representation for 3D Scene Understanding [19.382210260928776]
Video-3D LLMは3Dシーンをダイナミックビデオとして扱い、3D位置エンコーディングをこれらの表現に組み込む。
本モデルは,複数の3次元シーン理解ベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-11-30T14:28:53Z) - LLMI3D: MLLM-based 3D Perception from a Single 2D Image [77.13869413871028]
マルチモーダルな大言語モデル(MLLM)は、一般的な能力では優れているが、3Dタスクでは性能が劣る。
本稿では,3次元局所空間物体認識の弱さ,テキストに基づく幾何学的数値出力の低さ,カメラ焦点変動の処理能力の低下に対する解決策を提案する。
我々は,事前学習したMLLMに対してパラメータ効率の良い微調整を採用し,強力な3次元知覚MLLMであるLLMI3Dを開発した。
論文 参考訳(メタデータ) (2024-08-14T10:00:16Z) - Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。