論文の概要: MMSI-Video-Bench: A Holistic Benchmark for Video-Based Spatial Intelligence
- arxiv url: http://arxiv.org/abs/2512.10863v1
- Date: Thu, 11 Dec 2025 17:57:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.494188
- Title: MMSI-Video-Bench: A Holistic Benchmark for Video-Based Spatial Intelligence
- Title(参考訳): MMSI-Video-Bench:ビデオベースの空間知能のホロスティックベンチマーク
- Authors: Jingli Lin, Runsen Xu, Shaohao Zhu, Sihan Yang, Peizhou Cao, Yunlong Ran, Miao Hu, Chenming Zhu, Yiman Xie, Yilin Long, Wenbo Hu, Dahua Lin, Tai Wang, Jiangmiao Pang,
- Abstract要約: MMSI-Video-Bench(MMSI-Video-Bench)は、MLLMにおけるビデオベースの空間知能の完全な人為的なベンチマークである。
4段階のフレームワークである知覚、計画、予測、クロスビデオ推論を運用しており、1,278のクリップで1,106の質問を下敷きにしている。
オープンソースとプロプライエタリなMLLMを25種類評価し,AIギャップが顕著であることを明らかにした。
- 参考スコア(独自算出の注目度): 61.065486539729875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spatial understanding over continuous visual input is crucial for MLLMs to evolve into general-purpose assistants in physical environments. Yet there is still no comprehensive benchmark that holistically assesses the progress toward this goal. In this work, we introduce MMSI-Video-Bench, a fully human-annotated benchmark for video-based spatial intelligence in MLLMs. It operationalizes a four-level framework, Perception, Planning, Prediction, and Cross-Video Reasoning, through 1,106 questions grounded in 1,278 clips from 25 datasets and in-house videos. Each item is carefully designed and reviewed by 3DV experts with explanatory rationales to ensure precise, unambiguous grounding. Leveraging its diverse data sources and holistic task coverage, MMSI-Video-Bench also supports three domain-oriented sub-benchmarks (Indoor Scene Perception Bench, Robot Bench and Grounding Bench) for targeted capability assessment. We evaluate 25 strong open-source and proprietary MLLMs, revealing a striking human--AI gap: many models perform near chance, and the best reasoning model lags humans by nearly 60%. We further find that spatially fine-tuned models still fail to generalize effectively on our benchmark. Fine-grained error analysis exposes systematic failures in geometric reasoning, motion grounding, long-horizon prediction, and cross-video correspondence. We also show that typical frame-sampling strategies transfer poorly to our reasoning-intensive benchmark, and that neither 3D spatial cues nor chain-of-thought prompting yields meaningful gains. We expect our benchmark to establish a solid testbed for advancing video-based spatial intelligence.
- Abstract(参考訳): 連続的な視覚入力に対する空間的理解は、MLLMが物理的環境において汎用的なアシスタントへと進化する上で不可欠である。
しかし、この目標に向けた進捗を全体的に評価する包括的なベンチマークは、まだ存在しない。
本研究では,MLLMにおけるビデオベース空間インテリジェンスのためのフルヒューマンアノテートベンチマークであるMMSI-Video-Benchを紹介する。
知覚、計画、予測、クロスビデオ推論という4段階のフレームワークを運用しており、25のデータセットと社内ビデオから1,278のクリップで1,106の質問を根拠にしている。
それぞれのアイテムは、3DVの専門家によって正確に、曖昧な根拠を確保するために慎重に設計され、レビューされる。
さまざまなデータソースと総合的なタスクカバレッジを活用して、MMSI-Video-Benchは3つのドメイン指向のサブベンチマーク(屋内のシーンパーセプションベンチ、ロボットベンチ、グラウンドングベンチ)もサポートして、目標とする能力評価を実現している。
私たちは25の強力なオープンソースとプロプライエタリなMLLMを評価し、大きな人間-AIギャップを明らかにした。
さらに、空間的に微調整されたモデルでは、ベンチマークで効果的に一般化できないことが分かっています。
きめ細かい誤差解析は、幾何学的推論、運動接地、長距離予測、ビデオ間の対応において体系的な失敗を露呈する。
また、一般的なフレームサンプリング戦略は、我々の推論集約的なベンチマークに乏しく、3次元空間的手がかりもチェーン・オブ・シークレットも有意義な利得は得られないことも示している。
当社のベンチマークでは、ビデオベースの空間知能を向上するための確固たるテストベッドが確立されることを期待しています。
関連論文リスト
- CVBench: Evaluating Cross-Video Synergies for Complex Multimodal Understanding and Reasoning [11.478276629279526]
CVBenchは,ビデオ間のリレーショナル推論を厳格に評価するために設計された,最初の総合的なベンチマークである。
CVBenchは、クロスビデオオブジェクトアソシエーション、クロスビデオイベントアソシエーション、クロスビデオ複合推論の3層にまたがる1000の質問応答ペアで構成されている。
5つのドメインの異なるビデオクラスタから構築されたこのベンチマークは、ダイナミックな視覚的コンテキストにまたがる情報を合成するモデルに挑戦する。
論文 参考訳(メタデータ) (2025-08-27T03:29:35Z) - HumanVideo-MME: Benchmarking MLLMs for Human-Centric Video Understanding [120.84817886550765]
MLLM(Multimodal Large Language Models)は、画像とビデオの両方を含む視覚的理解タスクにおいて、大きな進歩を見せている。
既存の人間中心のベンチマークは、主にビデオ生成の品質と行動認識を強調し、人間中心のシナリオに必要な知覚と認知の能力を見落としている。
我々は,人間中心のビデオ理解におけるMLLMのより総合的な評価を提供するために,厳格にキュレートされたベンチマークを提案する。
論文 参考訳(メタデータ) (2025-07-07T11:52:24Z) - MMSI-Bench: A Benchmark for Multi-Image Spatial Intelligence [74.51213082084428]
MMSI-Benchは、マルチイメージ空間インテリジェンスに特化したVQAベンチマークである。
我々は、大規模な実験を行い、34のオープンソースおよびプロプライエタリMLLMを徹底的に評価する。
最も強力なオープンソースモデルはおよそ30%の精度に達し、OpenAIのo3推論モデルは40%に達し、人間は97%である。
論文 参考訳(メタデータ) (2025-05-29T17:59:52Z) - SAMA: Towards Multi-Turn Referential Grounded Video Chat with Large Language Models [93.73583158211115]
ビデオにおけるきめ細かい時間的理解の獲得は、現在のビデオ大マルチモデル(ビデオLMM)にとって大きな課題である。
私たちは、データセット、モデル、ベンチマークの3つの中核的な側面に貢献しています。
まず,ビデオ理解,グラウンドニング,マルチターンビデオチャットの共用学習を実現するため、15Kビデオからなる大規模データセットであるSAMA-239Kを紹介する。
第2に,広義の時間的コンテキストアグリゲータとセグメンションモデルを組み合わせたSAMAモデルを提案する。
論文 参考訳(メタデータ) (2025-05-24T18:13:16Z) - RTV-Bench: Benchmarking MLLM Continuous Perception, Understanding and Reasoning through Real-Time Video [34.92237577348738]
RTV-BenchはMLLMリアルタイムビデオ解析のためのきめ細かいベンチマークである。
RTV-Benchは552の多様なビデオ(167.2時間)と4,631の高品質QAペアを含んでいる。
論文 参考訳(メタデータ) (2025-05-04T10:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。