論文の概要: Multi-SpatialMLLM: Multi-Frame Spatial Understanding with Multi-Modal Large Language Models
- arxiv url: http://arxiv.org/abs/2505.17015v1
- Date: Thu, 22 May 2025 17:59:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.560605
- Title: Multi-SpatialMLLM: Multi-Frame Spatial Understanding with Multi-Modal Large Language Models
- Title(参考訳): Multi-SpatialMLLM:Multi-Modal Large Language Modelを用いたマルチフレーム空間理解
- Authors: Runsen Xu, Weiyao Wang, Hao Tang, Xingyu Chen, Xiaodong Wang, Fu-Jen Chu, Dahua Lin, Matt Feiszli, Kevin J. Liang,
- Abstract要約: マルチモーダル大言語モデル(MLLM)は視覚タスクにおいて急速に進歩しているが、空間的理解は単一画像に限られている。
本研究では, 深度知覚, 視覚対応, 動的知覚を統合することで, MLLMを頑健なマルチフレーム空間理解と組み合わせる枠組みを提案する。
我々のモデルであるMulti-SpatialMLLMは、ベースラインやプロプライエタリシステムよりも大幅に向上し、スケーラブルで一般化可能なマルチフレーム推論を実証する。
- 参考スコア(独自算出の注目度): 70.41727912081463
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multi-modal large language models (MLLMs) have rapidly advanced in visual tasks, yet their spatial understanding remains limited to single images, leaving them ill-suited for robotics and other real-world applications that require multi-frame reasoning. In this paper, we propose a framework to equip MLLMs with robust multi-frame spatial understanding by integrating depth perception, visual correspondence, and dynamic perception. Central to our approach is the MultiSPA dataset, a novel, large-scale collection of more than 27 million samples spanning diverse 3D and 4D scenes. Alongside MultiSPA, we introduce a comprehensive benchmark that tests a wide spectrum of spatial tasks under uniform metrics. Our resulting model, Multi-SpatialMLLM, achieves significant gains over baselines and proprietary systems, demonstrating scalable, generalizable multi-frame reasoning. We further observe multi-task benefits and early indications of emergent capabilities in challenging scenarios, and showcase how our model can serve as a multi-frame reward annotator for robotics.
- Abstract(参考訳): MLLM(Multi-modal large language model)は視覚的タスクにおいて急速に進歩しているが、空間的理解は単一画像に限られており、ロボット工学や他の実世界の多フレーム推論を必要とするアプリケーションには適していない。
本稿では, 深度知覚, 視覚対応, 動的知覚を統合することで, MLLMを頑健なマルチフレーム空間理解に資する枠組みを提案する。
このアプローチの中心にあるのはMultiSPAデータセットです。これは、多様な3Dと4Dのシーンにまたがる2700万以上のサンプルからなる、新しく大規模なコレクションです。
我々は,MultiSPAと並行して,一様測定値の下で広い範囲の空間的タスクをテストする包括的なベンチマークを導入する。
我々のモデルであるMulti-SpatialMLLMは、ベースラインやプロプライエタリシステムよりも大幅に向上し、スケーラブルで一般化可能なマルチフレーム推論を実証する。
さらに、課題シナリオにおけるマルチタスクのメリットと創発的能力の早期表示を観察し、我々のモデルがロボット工学のマルチフレーム報酬アノテータとしてどのように機能するかを示す。
関連論文リスト
- EarthGPT-X: Enabling MLLMs to Flexibly and Comprehensively Understand Multi-Source Remote Sensing Imagery [15.581788175591097]
リモートセンシング画像に自然空間モデルを適用することは困難である。
EarthGPT-Xはズームインとズームアウトのインサイトを提供する。
実験は、多粒度タスクにおける提案された地球GPT-Xの優位性を実証した。
論文 参考訳(メタデータ) (2025-04-17T09:56:35Z) - PUMA: Empowering Unified MLLM with Multi-granular Visual Generation [62.747751204215916]
統一MLLMと多言語視覚生成を併用したPUMAを提案する。
PUMAはMLLMの入力と出力の両方としてマルチグラニュラ視覚特徴を統一する。
この研究は、様々な視覚的タスクの粒度要求に適応できる真に統一されたMLLMに向けた重要なステップである。
論文 参考訳(メタデータ) (2024-10-17T17:59:57Z) - A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。
本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文 参考訳(メタデータ) (2024-08-02T15:14:53Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for
Multi-modal Large Language Models [86.478087039015]
モデル重み、チューニングタスク、視覚埋め込みを併用した多目的多モード大言語モデル(MLLM)を提案する。
提案したジョイントミキシングに基づいて,高解像度画像のきめ細かい外観をより正確に捉えるための効率的な手法を提案する。
今後のMLLM研究におけるジョイントミキシングの探求に光を当てることを願っている。
論文 参考訳(メタデータ) (2023-11-13T18:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。