論文の概要: MMSI-Bench: A Benchmark for Multi-Image Spatial Intelligence
- arxiv url: http://arxiv.org/abs/2505.23764v1
- Date: Thu, 29 May 2025 17:59:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:08.089859
- Title: MMSI-Bench: A Benchmark for Multi-Image Spatial Intelligence
- Title(参考訳): MMSI-Bench:マルチイメージ空間知能のベンチマーク
- Authors: Sihan Yang, Runsen Xu, Yiman Xie, Sizhe Yang, Mo Li, Jingli Lin, Chenming Zhu, Xiaochen Chen, Haodong Duan, Xiangyu Yue, Dahua Lin, Tai Wang, Jiangmiao Pang,
- Abstract要約: MMSI-Benchは、マルチイメージ空間インテリジェンスに特化したVQAベンチマークである。
我々は、大規模な実験を行い、34のオープンソースおよびプロプライエタリMLLMを徹底的に評価する。
最も強力なオープンソースモデルはおよそ30%の精度に達し、OpenAIのo3推論モデルは40%に達し、人間は97%である。
- 参考スコア(独自算出の注目度): 50.38961770108891
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spatial intelligence is essential for multimodal large language models (MLLMs) operating in the complex physical world. Existing benchmarks, however, probe only single-image relations and thus fail to assess the multi-image spatial reasoning that real-world deployments demand. We introduce MMSI-Bench, a VQA benchmark dedicated to multi-image spatial intelligence. Six 3D-vision researchers spent more than 300 hours meticulously crafting 1,000 challenging, unambiguous multiple-choice questions from over 120,000 images, each paired with carefully designed distractors and a step-by-step reasoning process. We conduct extensive experiments and thoroughly evaluate 34 open-source and proprietary MLLMs, observing a wide gap: the strongest open-source model attains roughly 30% accuracy and OpenAI's o3 reasoning model reaches 40%, while humans score 97%. These results underscore the challenging nature of MMSI-Bench and the substantial headroom for future research. Leveraging the annotated reasoning processes, we also provide an automated error analysis pipeline that diagnoses four dominant failure modes, including (1) grounding errors, (2) overlap-matching and scene-reconstruction errors, (3) situation-transformation reasoning errors, and (4) spatial-logic errors, offering valuable insights for advancing multi-image spatial intelligence. Project page: https://runsenxu.com/projects/MMSI_Bench .
- Abstract(参考訳): 空間知能は、複雑な物理世界で動作するマルチモーダルな大言語モデル(MLLM)にとって不可欠である。
しかし、既存のベンチマークでは、単一のイメージの関係のみを探索し、現実のデプロイメントが要求するマルチイメージ空間的推論を評価することに失敗している。
マルチイメージ空間インテリジェンスに特化したVQAベンチマークであるMMSI-Benchを紹介する。
6人の3D画像研究者が、1万枚以上の画像から、難解で曖昧な複数の質問を1000時間以上細心の注意を払って作り上げ、それぞれに慎重にデザインされたイントラクタとステップバイステップの推論プロセスが組み合わされた。
我々は大規模な実験を行い、34のオープンソースおよびプロプライエタリMLLMを徹底的に評価し、幅広いギャップを観察する。最強のオープンソースモデルはおよそ30%の精度で、OpenAIのo3推論モデルは40%、人間が97%に達する。
これらの結果はMMSI-Benchの挑戦的な性質と将来の研究のための実質的なヘッドルームを浮き彫りにしている。
注釈付き推論プロセスを活用することで,(1)グラウンドングエラー,(2)オーバーラップマッチングとシーン再構成エラー,(3)状況変化推論エラー,(4)空間的誤りの4つの主要な障害モードを診断する自動エラー解析パイプラインも提供し,マルチイメージ空間インテリジェンスを進展させる上で有用な洞察を提供する。
プロジェクトページ: https://runsenxu.com/projects/MMSI_Bench
関連論文リスト
- Jigsaw-Puzzles: From Seeing to Understanding to Reasoning in Vision-Language Models [6.569837864665502]
Jigsaw-Puzzlesは空間的複雑さの高い1,100個の慎重にキュレートされた実世界の画像からなる新しいベンチマークである。
このデータセットに基づいて、視覚言語モデルの空間知覚、構造的理解、推論能力を厳格に評価する5つのタスクを設計する。
その結果、最強のモデルであるGemini-2.5-Proでさえ、全体的な精度は77.14%に過ぎず、特にオーダージェネレーションタスクでは性能が良くないことがわかった。
論文 参考訳(メタデータ) (2025-05-27T05:17:41Z) - Can Multimodal Large Language Models Understand Spatial Relations? [16.76001474065412]
我々はCOCO 2017をベースとした人間アノテーション付き空間関係推論ベンチマークであるSpatialMQAを紹介する。
その結果、現在の最先端MLLMの精度は48.14%に過ぎず、人間レベルの精度は98.40%をはるかに下回っている。
論文 参考訳(メタデータ) (2025-05-25T07:37:34Z) - SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding [64.15606979785355]
マルチモーダル大規模言語モデル(MLLM)は,質問応答タスクにおいて顕著な成功を収めているが,空間的理解能力は乏しい。
既存のMLLMは3次元空間認識と理解能力を持っているか?
論文 参考訳(メタデータ) (2025-05-22T17:59:03Z) - Open3DVQA: A Benchmark for Comprehensive Spatial Reasoning with Multimodal Large Language Model in Open Space [44.42918139949761]
オープンな3次元空間における最先端基礎モデル(SOTA)の空間的推論能力を包括的に評価する新しいベンチマークOpen3DVQAを提案する。
Open3DVQAは9kのVQAサンプルで構成され、高忠実度都市シミュレーターにおける効率的な半自動ツールを用いて収集される。
論文 参考訳(メタデータ) (2025-03-14T05:35:38Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - Spatial457: A Diagnostic Benchmark for 6D Spatial Reasoning of Large Multimodal Models [8.499125564147834]
空間推論のための4つの重要な機能を備えた,スケーラブルで偏りのない合成データセットを提案する。
本研究では,5つの難易度にまたがって7つの質問型を構成するカスケード評価構造を構築した。
特に3次元推論や6次元空間的タスクにおいて,タスクの複雑さが増大するにつれて,パフォーマンスの全般的な低下が観察される。
論文 参考訳(メタデータ) (2025-02-12T18:53:20Z) - Polymath: A Challenging Multi-modal Mathematical Reasoning Benchmark [53.61633384281524]
PolyMATHはMLLMの認知的推論能力を評価するためのベンチマークである。
PolyMATHで最高のスコアは41%、36%、27%で、それぞれClaude-3.5 Sonnet、GPT-4o、Gemini-1.5 Proが獲得した。
さらにきめ細かい誤差解析により、これらのモデルは空間関係を理解し、引き出された高レベルの推論を行うのに苦労していることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-06T20:35:41Z) - ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection [60.297079601066784]
エラー検出におけるMLLMの能力を評価するために設計された最初のベンチマークであるErrorRadarを紹介する。
ErrorRadarはエラーステップ識別とエラー分類という2つのサブタスクを評価している。
2500の高品質なマルチモーダルK-12数学問題で構成され、実世界の学生相互作用から収集される。
GPT-4oの優れた性能は、まだ人間の評価に約10%遅れているため、大きな課題が残っている。
論文 参考訳(メタデータ) (2024-10-06T14:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。