論文の概要: Video-MSR: Benchmarking Multi-hop Spatial Reasoning Capabilities of MLLMs
- arxiv url: http://arxiv.org/abs/2601.09430v1
- Date: Wed, 14 Jan 2026 12:24:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.393099
- Title: Video-MSR: Benchmarking Multi-hop Spatial Reasoning Capabilities of MLLMs
- Title(参考訳): Video-MSR:MLLMのマルチホップ空間推論能力のベンチマーク
- Authors: Rui Zhu, Xin Shen, Shuchen Wu, Chenxi Miao, Xin Yu, Yang Li, Weikang Li, Deguo Xia, Jizhou Huang,
- Abstract要約: Video-MSRは、動的ビデオシナリオにおけるマルチホップ空間推論を評価するために設計された最初のベンチマークである。
当社のベンチマークでは,3,052の高品質ビデオインスタンスと4,993の質問応答ペアを,スケーラブルで視覚的なパイプラインで構築した。
本稿は,マルチホップ空間指導データの有効性を実証し,将来的な研究の基盤としてビデオMSRを確立した。
- 参考スコア(独自算出の注目度): 21.346216484639225
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Spatial reasoning has emerged as a critical capability for Multimodal Large Language Models (MLLMs), drawing increasing attention and rapid advancement. However, existing benchmarks primarily focus on single-step perception-to-judgment tasks, leaving scenarios requiring complex visual-spatial logical chains significantly underexplored. To bridge this gap, we introduce Video-MSR, the first benchmark specifically designed to evaluate Multi-hop Spatial Reasoning (MSR) in dynamic video scenarios. Video-MSR systematically probes MSR capabilities through four distinct tasks: Constrained Localization, Chain-based Reference Retrieval, Route Planning, and Counterfactual Physical Deduction. Our benchmark comprises 3,052 high-quality video instances with 4,993 question-answer pairs, constructed via a scalable, visually-grounded pipeline combining advanced model generation with rigorous human verification. Through a comprehensive evaluation of 20 state-of-the-art MLLMs, we uncover significant limitations, revealing that while models demonstrate proficiency in surface-level perception, they exhibit distinct performance drops in MSR tasks, frequently suffering from spatial disorientation and hallucination during multi-step deductions. To mitigate these shortcomings and empower models with stronger MSR capabilities, we further curate MSR-9K, a specialized instruction-tuning dataset, and fine-tune Qwen-VL, achieving a +7.82% absolute improvement on Video-MSR. Our results underscore the efficacy of multi-hop spatial instruction data and establish Video-MSR as a vital foundation for future research. The code and data will be available at https://github.com/ruiz-nju/Video-MSR.
- Abstract(参考訳): 空間推論はMLLM(Multimodal Large Language Models)の重要な機能として現れ、注目を集め、急速に進歩している。
しかし、既存のベンチマークは主に単一ステップの知覚と判断のタスクに重点を置いており、複雑な視覚空間論理的連鎖を必要とするシナリオは明らかに過小評価されている。
このギャップを埋めるために,マルチホップ空間推論(Multi-hop spatial Reasoning, MSR)を動的ビデオシナリオで評価するための最初のベンチマークであるVideo-MSRを紹介する。
ビデオMSRは、制約された局所化、連鎖に基づく参照検索、ルートプランニング、および非現実的な物理的推論の4つのタスクを通じて、MSR能力を体系的に探索する。
このベンチマークでは,3,052の高品質ビデオインスタンスと4,993の質問応答ペアを,高度モデル生成と厳密な人間検証を組み合わせたスケーラブルで視覚的なパイプラインで構築した。
20種類の最先端MLLMを総合的に評価した結果、表面レベルでの認識能力を示すモデルでは、MSRタスクに顕著な性能低下がみられ、多段階減退時の空間的不整合や幻覚に悩まされることが判明した。
これらの欠点を緩和し、より強力なMSR機能を持つモデルを強化するため、特殊命令チューニングデータセットであるMSR-9Kと微調整されたQwen-VLを更にキュレートし、ビデオMSRの7.82%の絶対的な改善を実現した。
本稿は,マルチホップ空間指導データの有効性を実証し,将来的な研究の基盤としてビデオMSRを確立した。
コードとデータはhttps://github.com/ruiz-nju/Video-MSR.comで入手できる。
関連論文リスト
- MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs [61.70050081221131]
MVU-EvalはMLLMのマルチビデオ理解を評価するための最初の包括的なベンチマークである。
私たちのMVU-Evalは、主に8つのコア能力を評価し、4,959本のビデオにまたがる1,824本の厳密にキュレートされた質問応答ペアを評価します。
これらの機能は、自律システムにおけるマルチセンサー合成や、クロスアングルスポーツ分析のような現実世界のアプリケーションと厳格に一致している。
論文 参考訳(メタデータ) (2025-11-10T16:02:33Z) - CVBench: Evaluating Cross-Video Synergies for Complex Multimodal Understanding and Reasoning [11.478276629279526]
CVBenchは,ビデオ間のリレーショナル推論を厳格に評価するために設計された,最初の総合的なベンチマークである。
CVBenchは、クロスビデオオブジェクトアソシエーション、クロスビデオイベントアソシエーション、クロスビデオ複合推論の3層にまたがる1000の質問応答ペアで構成されている。
5つのドメインの異なるビデオクラスタから構築されたこのベンチマークは、ダイナミックな視覚的コンテキストにまたがる情報を合成するモデルに挑戦する。
論文 参考訳(メタデータ) (2025-08-27T03:29:35Z) - MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks [67.31276358668424]
AV-HaystacksQAという新しいタスクを導入し、クエリに応答して、異なるビデオにまたがる有能なセグメントを識別し、それらをリンクして最も有意義な回答を生成する。
AVHaystacksは、マルチビデオ検索および時間的グラウンドタスクにおけるLMMの能力を評価するために設計された3100の注釈付きQAペアからなるオーディオビジュアルベンチマークである。
提案するAVHaystackのQAタスクにおけるBLEU@4およびGPT評価スコアの基準値よりも89%と65%の相対的な改善を実現し、モデルに依存しないマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-08T06:34:29Z) - MomentSeeker: A Task-Oriented Benchmark For Long-Video Moment Retrieval [61.414236415351446]
長ビデオモーメント検索(LMVR)のための新しいベンチマークであるMomentSeekerを提案する。
MomentSeekerは、長く多様なビデオに基づいて作られ、平均1200秒以上持続する。
グローバルレベル、イベントレベル、オブジェクトレベル、アクション認識、オブジェクトローカライゼーション、因果推論といった一般的なタスクをカバーする。
論文 参考訳(メタデータ) (2025-02-18T05:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。