論文の概要: Spatial4D-Bench: A Versatile 4D Spatial Intelligence Benchmark
- arxiv url: http://arxiv.org/abs/2601.00092v1
- Date: Wed, 31 Dec 2025 19:56:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.254553
- Title: Spatial4D-Bench: A Versatile 4D Spatial Intelligence Benchmark
- Title(参考訳): 空間4D-Bench:4D空間インテリジェンスベンチマーク
- Authors: Pan Wang, Yang Liu, Guile Wu, Eduardo R. Corral-Soto, Chengjie Huang, Binbin Xu, Dongfeng Bai, Xu Yan, Yuan Ren, Xingxin Chen, Yizhe Wu, Tao Huang, Wenjun Wan, Xin Wu, Pei Zhou, Xuyang Dai, Kangbo Lv, Hongbo Zhang, Yosef Fried, Aixue Ye, Bailan Feng, Zhenyu Chen, Zhen Li, Yingcong Chen, Yiyi Liao, Bingbing Liu,
- Abstract要約: 人間は自然に4D空間知能を持ち、推論能力の幅広い範囲を支えている。
MLLM(Multimodal Large Language Models)は,人間レベル4次元空間知能をどの程度達成できるのか?
本研究では,MLLMの4次元空間推論能力を評価するために,多目的な4次元空間インテリジェンスベンチマークであるSpatial4D-Benchを提案する。
- 参考スコア(独自算出の注目度): 68.52969403388082
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 4D spatial intelligence involves perceiving and processing how objects move or change over time. Humans naturally possess 4D spatial intelligence, supporting a broad spectrum of spatial reasoning abilities. To what extent can Multimodal Large Language Models (MLLMs) achieve human-level 4D spatial intelligence? In this work, we present Spatial4D-Bench, a versatile 4D spatial intelligence benchmark designed to comprehensively assess the 4D spatial reasoning abilities of MLLMs. Unlike existing spatial intelligence benchmarks that are often small-scale or limited in diversity, Spatial4D-Bench provides a large-scale, multi-task evaluation benchmark consisting of ~40,000 question-answer pairs covering 18 well-defined tasks. We systematically organize these tasks into six cognitive categories: object understanding, scene understanding, spatial relationship understanding, spatiotemporal relationship understanding, spatial reasoning and spatiotemporal reasoning. Spatial4D-Bench thereby offers a structured and comprehensive benchmark for evaluating the spatial cognition abilities of MLLMs, covering a broad spectrum of tasks that parallel the versatility of human spatial intelligence. We benchmark various state-of-the-art open-source and proprietary MLLMs on Spatial4D-Bench and reveal their substantial limitations in a wide variety of 4D spatial reasoning aspects, such as route plan, action recognition, and physical plausibility reasoning. We hope that the findings provided in this work offer valuable insights to the community and that our benchmark can facilitate the development of more capable MLLMs toward human-level 4D spatial intelligence. More resources can be found on our project page.
- Abstract(参考訳): 4D空間知能は、時間とともに物体の動きや変化を知覚し、処理する。
人間は自然に4D空間知能を持ち、空間推論能力の幅広い範囲を支えている。
MLLM(Multimodal Large Language Models)は,人間レベル4次元空間知能をどの程度達成できるのか?
本研究では,MLLMの4次元空間推論能力を総合的に評価するために,多目的な4次元空間インテリジェンスベンチマークであるSpatial4D-Benchを提案する。
従来の空間インテリジェンスベンチマークとは異なり、Spatial4D-Benchは18の明確に定義されたタスクをカバーする約40,000の質問応答ペアからなる大規模なマルチタスク評価ベンチマークを提供する。
本研究では,これらの課題を,対象理解,シーン理解,空間的関係理解,時空間的関係理解,空間的推論,時空間推論の6つのカテゴリに分類する。
これにより、Spatial4D-BenchはMLLMの空間認識能力を評価するための構造化された包括的なベンチマークを提供する。
本研究では、Spatial4D-Bench上で、最先端のオープンソースおよびプロプライエタリなMLLMをベンチマークし、経路計画、行動認識、物理的妥当性推論など、多種多様な空間的推論の側面において、それらの実質的な限界を明らかにする。
この研究で得られた知見がコミュニティに貴重な洞察を与え、我々のベンチマークがより有能なMLLMを人間レベルの4D空間知能へと発展させることを期待している。
より多くのリソースはプロジェクトのページにある。
関連論文リスト
- SpatialBench: Benchmarking Multimodal Large Language Models for Spatial Cognition [19.526371771173064]
空間認知は実世界のマルチモーダルインテリジェンスの基本であり、モデルが物理的環境と対話できるようにする。
既存のベンチマークはしばしば空間認知を単純化し、それを1次元の計量に還元する。
本稿では,空間知能を5つの段階に分解する階層的空間認知フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-26T15:04:18Z) - Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks [108.15756345836901]
大規模モデルを用いたマルチモーダル空間推論タスクの包括的レビューを行う。
我々は、視覚言語ナビゲーションやアクションモデルを含む、具体的AIの進歩についてレビューする。
我々は,新しいセンサによる空間的理解に寄与する音声やエゴセントリックビデオなどの新たなモダリティを考察する。
論文 参考訳(メタデータ) (2025-10-29T17:55:43Z) - How Far are VLMs from Visual Spatial Intelligence? A Benchmark-Driven Perspective [103.44502230776352]
視覚言語モデル(VLM)における視覚空間推論(VSR)の系統的研究について述べる。
空間インテリジェンスを3つのレベル,すなわち基本的な知覚,空間理解,空間計画,および空間インテリジェンスベンチマークSIBenchに分類した。
論文 参考訳(メタデータ) (2025-09-23T12:00:14Z) - OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models [17.976302783133956]
認知心理学に基づく空間的推論のベンチマークであるOmniSpatialを紹介する。
動的推論、複雑な空間論理、空間相互作用、視点取りという4つの主要なカテゴリをカバーしている。
注意深い手動アノテーションにより8.4K以上の質問応答対を構築する。
論文 参考訳(メタデータ) (2025-06-03T17:58:29Z) - SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding [64.15606979785355]
マルチモーダル大規模言語モデル(MLLM)は,質問応答タスクにおいて顕著な成功を収めているが,空間的理解能力は乏しい。
既存のMLLMは3次元空間認識と理解能力を持っているか?
論文 参考訳(メタデータ) (2025-05-22T17:59:03Z) - A Survey of Large Language Model-Powered Spatial Intelligence Across Scales: Advances in Embodied Agents, Smart Cities, and Earth Science [27.66472429481388]
大規模言語モデル(LLM)における人間の空間認識とその空間知能への影響について検討する。
次に, LLMにおける空間記憶, 知識表現, 抽象的推論について検討し, その役割と関係を明らかにする。
我々は空間記憶と理解から空間的推論と知性へと進化する枠組みに従って、空間的インテリジェンス(空間的インテリジェンス、空間的インテリジェンス、空間的インテリジェンス)を分析した。
論文 参考訳(メタデータ) (2025-04-14T03:38:31Z) - 4D-Bench: Benchmarking Multi-modal Large Language Models for 4D Object Understanding [83.37551035659119]
4Dオブジェクトを理解する上でのMLLMの能力を評価するために、一般に標準化されたベンチマークは存在しない。
4Dオブジェクト理解におけるMLLMの能力を評価する最初のベンチマークである4D-Benchを紹介する。
論文 参考訳(メタデータ) (2025-03-22T17:55:53Z) - Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces [34.809309396448654]
5000組以上の質問応答対からなるビデオベース視覚空間インテリジェンスベンチマーク(VSI-Bench)を提案する。
MLLM(Multimodal Large Language Models)は,非人間的な視覚空間知能を持つ。
論文 参考訳(メタデータ) (2024-12-18T18:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。