論文の概要: MLLM-4D: Towards Visual-based Spatial-Temporal Intelligence
- arxiv url: http://arxiv.org/abs/2603.00515v1
- Date: Sat, 28 Feb 2026 07:23:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.23657
- Title: MLLM-4D: Towards Visual-based Spatial-Temporal Intelligence
- Title(参考訳): MLLM-4D:視覚型空間時間インテリジェンスを目指して
- Authors: Xingyilang Yin, Chengzhengxu Li, Jiahao Chang, Chi-Man Pun, Xiaodong Cun,
- Abstract要約: 人間は視覚に基づく4D空間時間知能で生まれる。
その重要性にもかかわらず、この機能は現在の大規模言語モデル(MLLM)にとって重要なボトルネックであり続けている。
- 参考スコア(独自算出の注目度): 50.11889361459544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans are born with vision-based 4D spatial-temporal intelligence, which enables us to perceive and reason about the evolution of 3D space over time from purely visual inputs. Despite its importance, this capability remains a significant bottleneck for current multimodal large language models (MLLMs). To tackle this challenge, we introduce MLLM-4D, a comprehensive framework designed to bridge the gaps in training data curation and model post-training for spatiotemporal understanding and reasoning. On the data front, we develop a cost-efficient data curation pipeline that repurposes existing stereo video datasets into high-quality 4D spatiotemporal instructional data. This results in the MLLM4D-2M and MLLM4D-R1-30k datasets for Supervised Fine-Tuning (SFT) and Reinforcement Fine-Tuning (RFT), alongside MLLM4D-Bench for comprehensive evaluation. Regarding model training, our post-training strategy establishes a foundational 4D understanding via SFT and further catalyzes 4D reasoning capabilities by employing Group Relative Policy Optimization (GRPO) with specialized Spatiotemporal Chain of Thought (ST-CoT) prompting and Spatiotemporal reward functions (ST-reward) without involving the modification of architecture. Extensive experiments demonstrate that MLLM-4D achieves state-of-the-art spatial-temporal understanding and reasoning capabilities from purely 2D RGB inputs. Project page: https://github.com/GVCLab/MLLM-4D.
- Abstract(参考訳): 人間は視覚に基づく空間的時間的知能を持って生まれており、純粋に視覚的な入力から時間とともに3D空間の進化を知覚し、推論することができる。
その重要性にもかかわらず、この機能は現在のマルチモーダルな大規模言語モデル(MLLM)にとって重要なボトルネックであり続けている。
この課題に対処するために,時空間的理解と推論のためのトレーニングデータキュレーションとモデルポストトレーニングのギャップを埋めるための総合的なフレームワークMLLM-4Dを導入する。
データ面では,既存のステレオビデオデータセットを高品質な4次元時空間データに再利用する費用効率の高いデータキュレーションパイプラインを開発する。
その結果、MLLM4D-2MとMLLM4D-R1-30kデータセットは、監視ファインチューニング(SFT)と強化ファインチューニング(RFT)のために、MLLM4D-Benchとともに包括的な評価を行うことができた。
モデルトレーニングに関しては,SFTによる基礎的な4D理解を確立し,アーキテクチャの変更を伴わずに,特別な時空間連鎖(ST-CoT)と時空間報酬関数(ST-Reward)を併用したグループ相対政策最適化(GRPO)を用いて,さらに4D推論機能を実現する。
大規模な実験により、MLLM-4Dは2D RGB入力から最先端の時空間理解と推論能力を実現することが示された。
プロジェクトページ:https://github.com/GVCLab/MLLM-4D。
関連論文リスト
- Learning to Reason in 4D: Dynamic Spatial Understanding for Vision Language Models [79.18306680174011]
DSR Suiteは、データセット、ベンチマーク、モデルの各面にギャップを埋める。
そこで本研究では,DSRビデオから複数問合せペアを生成する自動パイプラインを提案する。
パイプラインは、カメラポーズ、局所点雲、オブジェクトマスク、向き、および3Dトラジェクトリを含む、豊富な幾何学的および運動的な情報を抽出する。
論文 参考訳(メタデータ) (2025-12-23T17:56:36Z) - S$^2$-MLLM: Boosting Spatial Reasoning Capability of MLLMs for 3D Visual Grounding with Structural Guidance [20.55536735670125]
3Dビジュアルグラウンド(3DVG)は、自然言語記述に基づく3Dシーンにおけるオブジェクトの配置に焦点を当てている。
MLLM(Multi-modal Large Language Models)の最近の進歩は、それらを3DVGに拡張する研究の動機となっている。
S$2$-MLLMは、暗黙の空間的推論を通じてMLLMの空間的推論を強化する効率的なフレームワークである。
論文 参考訳(メタデータ) (2025-12-01T03:08:34Z) - Abstract 3D Perception for Spatial Intelligence in Vision-Language Models [100.13033631690114]
視覚言語モデル(VLM)は、空間認識や物理的理解といった3D関連課題に苦しむ。
我々は,VLMの幾何学的構造と物理力学を符号化するために,抽象的境界ボックスを利用するフレームワークであるSandboxVLMを紹介した。
提案手法は空間知能を常に向上させ,SAT Realの8.3%のゲインをベースライン法と比較して達成する。
論文 参考訳(メタデータ) (2025-11-14T04:16:09Z) - B4DL: A Benchmark for 4D LiDAR LLM in Spatio-Temporal Understanding [23.446113957661503]
我々は,4次元LiDAR理解上でMLLMを訓練し,評価するためのベンチマークであるB4DLを紹介する。
本稿では,スケーラブルなデータ生成パイプラインとMLLMモデルを提案する。
論文 参考訳(メタデータ) (2025-08-07T11:11:56Z) - Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence [13.168559963356952]
純粋に2次元の観察から空間的推論を行う新しいフレームワークであるSpatial-MLLMを提案する。
我々の重要な洞察は、フィードフォワード視覚幾何学基礎モデルに先立って、強い構造を解き放つことである。
コネクタは、両方の機能を統合された視覚トークンに統合し、空間的理解を強化する。
論文 参考訳(メタデータ) (2025-05-29T17:59:04Z) - VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction [86.82819259860186]
本稿では,視覚言語モデル(VLM)のための統合フレームワークであるVLM-3Rについて紹介する。
VLM-3Rは、空間的理解を表す暗黙の3Dトークンを導出する幾何学エンコーダを用いて、モノクロビデオフレームを処理する。
論文 参考訳(メタデータ) (2025-05-26T17:56:30Z) - 4D-Bench: Benchmarking Multi-modal Large Language Models for 4D Object Understanding [83.37551035659119]
4Dオブジェクトを理解する上でのMLLMの能力を評価するために、一般に標準化されたベンチマークは存在しない。
4Dオブジェクト理解におけるMLLMの能力を評価する最初のベンチマークである4D-Benchを紹介する。
論文 参考訳(メタデータ) (2025-03-22T17:55:53Z) - Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。