論文の概要: Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks
- arxiv url: http://arxiv.org/abs/2510.25760v1
- Date: Wed, 29 Oct 2025 17:55:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:45.905576
- Title: Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks
- Title(参考訳): 大規模モデル時代のマルチモーダル空間推論:サーベイとベンチマーク
- Authors: Xu Zheng, Zihao Dongfang, Lutao Jiang, Boyuan Zheng, Yulong Guo, Zhenquan Zhang, Giuliano Albanese, Runyi Yang, Mengjiao Ma, Zixin Zhang, Chenfei Liao, Dingcheng Zhen, Yuanhuiyi Lyu, Yuqian Fu, Bin Ren, Linfeng Zhang, Danda Pani Paudel, Nicu Sebe, Luc Van Gool, Xuming Hu,
- Abstract要約: 大規模モデルを用いたマルチモーダル空間推論タスクの包括的レビューを行う。
我々は、視覚言語ナビゲーションやアクションモデルを含む、具体的AIの進歩についてレビューする。
我々は,新しいセンサによる空間的理解に寄与する音声やエゴセントリックビデオなどの新たなモダリティを考察する。
- 参考スコア(独自算出の注目度): 108.15756345836901
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans possess spatial reasoning abilities that enable them to understand spaces through multimodal observations, such as vision and sound. Large multimodal reasoning models extend these abilities by learning to perceive and reason, showing promising performance across diverse spatial tasks. However, systematic reviews and publicly available benchmarks for these models remain limited. In this survey, we provide a comprehensive review of multimodal spatial reasoning tasks with large models, categorizing recent progress in multimodal large language models (MLLMs) and introducing open benchmarks for evaluation. We begin by outlining general spatial reasoning, focusing on post-training techniques, explainability, and architecture. Beyond classical 2D tasks, we examine spatial relationship reasoning, scene and layout understanding, as well as visual question answering and grounding in 3D space. We also review advances in embodied AI, including vision-language navigation and action models. Additionally, we consider emerging modalities such as audio and egocentric video, which contribute to novel spatial understanding through new sensors. We believe this survey establishes a solid foundation and offers insights into the growing field of multimodal spatial reasoning. Updated information about this survey, codes and implementation of the open benchmarks can be found at https://github.com/zhengxuJosh/Awesome-Spatial-Reasoning.
- Abstract(参考訳): 人間は空間推論能力を持ち、視覚や音などの多モーダルな観察を通して空間を理解することができる。
大規模マルチモーダル推論モデルは、様々な空間的タスクにおいて有望なパフォーマンスを示す、知覚と推論を学習することでこれらの能力を拡張します。
しかし、体系的なレビューとこれらのモデルの公開ベンチマークは依然として限られている。
本稿では,大規模モデルを用いたマルチモーダル空間推論タスクの総合的なレビュー,MLLM(Multimodal large language model)の最近の進歩の分類,評価のためのオープンベンチマークの導入について紹介する。
まず、一般的な空間的推論を概説し、ポストトレーニング技術、説明可能性、アーキテクチャに焦点をあてる。
従来の2次元タスク以外にも,空間的関係の推論,シーンとレイアウトの理解,視覚的質問応答と3次元空間のグラウンド化について検討する。
また、視覚言語ナビゲーションやアクションモデルを含む、具体的AIの進歩についてもレビューする。
さらに,新たなセンサによる空間理解に寄与する音声や自我中心映像などの新たなモダリティも検討する。
本調査は,マルチモーダル空間推論の発達分野に関する知見を提供するとともに,基盤の確立を図っていると信じている。
この調査に関する最新情報、オープンベンチマークのコードと実装はhttps://github.com/zhengxuJosh/Awesome-Spatial-Reasoning.comで見ることができる。
関連論文リスト
- How Far are VLMs from Visual Spatial Intelligence? A Benchmark-Driven Perspective [103.44502230776352]
視覚言語モデル(VLM)における視覚空間推論(VSR)の系統的研究について述べる。
空間インテリジェンスを3つのレベル,すなわち基本的な知覚,空間理解,空間計画,および空間インテリジェンスベンチマークSIBenchに分類した。
論文 参考訳(メタデータ) (2025-09-23T12:00:14Z) - Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing [62.447497430479174]
空間における推論への描画は、視覚空間における基本的な描画操作を通じてLVLMを推論できる新しいパラダイムである。
我々のモデルはVILASRと呼ばれ、様々な空間推論ベンチマークで既存の手法より一貫して優れています。
論文 参考訳(メタデータ) (2025-06-11T17:41:50Z) - SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding [64.15606979785355]
マルチモーダル大規模言語モデル(MLLM)は,質問応答タスクにおいて顕著な成功を収めているが,空間的理解能力は乏しい。
既存のMLLMは3次元空間認識と理解能力を持っているか?
論文 参考訳(メタデータ) (2025-05-22T17:59:03Z) - Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models [14.442394137843923]
本稿では,まず空間的推論のコア要素を記述した詳細な分析を行う。
次に、これらのモデルの性能を、合成画像と実画像の両方で評価する。
論文 参考訳(メタデータ) (2025-03-25T14:34:06Z) - Open3D-VQA: A Benchmark for Comprehensive Spatial Reasoning with Multimodal Large Language Model in Open Space [38.482463743451625]
本稿では,空から見た複雑な空間関係を推論するMLLMの能力を評価するための新しいベンチマークであるOpen3D-VQAを提案する。
このベンチマークは、7つの一般的な空間的推論タスクにまたがる73kのQAペアで構成されている。
論文 参考訳(メタデータ) (2025-03-14T05:35:38Z) - SPHERE: Unveiling Spatial Blind Spots in Vision-Language Models Through Hierarchical Evaluation [7.659514491338669]
現在の視覚言語モデルは、基本的な空間的手がかりを把握できるが、人間のような理解や現実世界の応用に必要な多次元空間的推論に苦慮している。
我々は,新しい人間注釈付きデータセットをサポートする階層的評価フレームワークであるSPHEREを開発した。
最先端モデルのベンチマーク評価では、特に距離と近接性についての推論において、重大な欠陥が示される。
論文 参考訳(メタデータ) (2024-12-17T09:10:55Z) - Does Spatial Cognition Emerge in Frontier Models? [56.47912101304053]
本研究では,フロンティアモデルにおける空間認知を体系的に評価するベンチマークSPACEを提案する。
その結果、現代のフロンティアモデルは動物の空間知能に劣っていることが示唆された。
論文 参考訳(メタデータ) (2024-10-09T01:41:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。