論文の概要: CrossVid: A Comprehensive Benchmark for Evaluating Cross-Video Reasoning in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2511.12263v1
- Date: Sat, 15 Nov 2025 15:41:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.783316
- Title: CrossVid: A Comprehensive Benchmark for Evaluating Cross-Video Reasoning in Multimodal Large Language Models
- Title(参考訳): CrossVid: マルチモーダル大言語モデルにおけるクロスビデオ推論評価のための総合ベンチマーク
- Authors: Jingyao Li, Jingyun Wang, Molin Tan, Haochen Wang, Cilin Yan, Likun Shi, Jiayin Cai, Xiaolong Jiang, Yao Hu,
- Abstract要約: クロスビデオ推論(CVR)は、複数のビデオの同時理解を必要とし、ビデオのグループ間で情報を集約し比較する。
既存のビデオ理解ベンチマークのほとんどはシングルビデオ分析に重点を置いており、マルチモーダルな大規模言語モデル(MLLM)が様々な動画を同時に推論できる能力の評価に失敗している。
最近のベンチマークでは、同一シーンの異なる視点を捉えたマルチビュービデオにおいてMLLMの能力を評価している。
我々は,MLLMの空間時間推論能力をクロスビデオ・コンテキストで包括的に評価する最初のベンチマークであるCrossVidを紹介する。
- 参考スコア(独自算出の注目度): 35.31011102734943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-Video Reasoning (CVR) presents a significant challenge in video understanding, which requires simultaneous understanding of multiple videos to aggregate and compare information across groups of videos. Most existing video understanding benchmarks focus on single-video analysis, failing to assess the ability of multimodal large language models (MLLMs) to simultaneously reason over various videos. Recent benchmarks evaluate MLLMs' capabilities on multi-view videos that capture different perspectives of the same scene. However, their limited tasks hinder a thorough assessment of MLLMs in diverse real-world CVR scenarios. To this end, we introduce CrossVid, the first benchmark designed to comprehensively evaluate MLLMs' spatial-temporal reasoning ability in cross-video contexts. Firstly, CrossVid encompasses a wide spectrum of hierarchical tasks, comprising four high-level dimensions and ten specific tasks, thereby closely reflecting the complex and varied nature of real-world video understanding. Secondly, CrossVid provides 5,331 videos, along with 9,015 challenging question-answering pairs, spanning single-choice, multiple-choice, and open-ended question formats. Through extensive experiments on various open-source and closed-source MLLMs, we observe that Gemini-2.5-Pro performs best on CrossVid, achieving an average accuracy of 50.4%. Notably, our in-depth case study demonstrates that most current MLLMs struggle with CVR tasks, primarily due to their inability to integrate or compare evidence distributed across multiple videos for reasoning. These insights highlight the potential of CrossVid to guide future advancements in enhancing MLLMs' CVR capabilities.
- Abstract(参考訳): CVR(Cross-Video Reasoning)は、複数のビデオの同時理解を必要とするビデオ理解において重要な課題である。
既存のビデオ理解ベンチマークのほとんどはシングルビデオ分析に重点を置いており、マルチモーダルな大規模言語モデル(MLLM)が様々な動画を同時に推論できる能力の評価に失敗している。
最近のベンチマークでは、同一シーンの異なる視点を捉えたマルチビュービデオにおいてMLLMの能力を評価している。
しかし、それらの制限されたタスクは、様々な現実世界のCVRシナリオにおけるMLLMの徹底的な評価を妨げる。
そこで我々は,MLLMの時間的推論能力をビデオ間コンテキストで包括的に評価するための最初のベンチマークであるCrossVidを紹介する。
まず、CrossVidは4つのハイレベルな次元と10の特定のタスクからなる幅広い階層的なタスクを含み、それによって現実世界のビデオ理解の複雑で多様な性質を深く反映している。
第2に、CrossVidは5,331本の動画と9,015本の質問回答ペアを提供している。
各種オープンソースおよびクローズドソースMLLMの広範な実験を通じて、Gemini-2.5-Proはクロスバイド上で最高の性能を示し、平均精度は50.4%である。
特に、我々の詳細なケーススタディでは、ほとんどのMLLMがCVRタスクに苦労していることが示されています。
これらの洞察は、MLLMのCVR能力を向上する将来の進歩を導くために、CrossVidの可能性を浮き彫りにする。
関連論文リスト
- MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs [61.70050081221131]
MVU-EvalはMLLMのマルチビデオ理解を評価するための最初の包括的なベンチマークである。
私たちのMVU-Evalは、主に8つのコア能力を評価し、4,959本のビデオにまたがる1,824本の厳密にキュレートされた質問応答ペアを評価します。
これらの機能は、自律システムにおけるマルチセンサー合成や、クロスアングルスポーツ分析のような現実世界のアプリケーションと厳格に一致している。
論文 参考訳(メタデータ) (2025-11-10T16:02:33Z) - CVBench: Evaluating Cross-Video Synergies for Complex Multimodal Understanding and Reasoning [11.478276629279526]
CVBenchは,ビデオ間のリレーショナル推論を厳格に評価するために設計された,最初の総合的なベンチマークである。
CVBenchは、クロスビデオオブジェクトアソシエーション、クロスビデオイベントアソシエーション、クロスビデオ複合推論の3層にまたがる1000の質問応答ペアで構成されている。
5つのドメインの異なるビデオクラスタから構築されたこのベンチマークは、ダイナミックな視覚的コンテキストにまたがる情報を合成するモデルに挑戦する。
論文 参考訳(メタデータ) (2025-08-27T03:29:35Z) - Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis [120.67048724315619]
Video-MMEは、ビデオ解析におけるMLLMの完全なマルチモード評価ベンチマークである。
我々は,GPT-4シリーズやGemini 1.5 Pro,オープンソース画像モデルなど,最先端のMLLMを幅広く評価した。
我々の実験によると、Gemini 1.5 Proは最も優れた商用モデルであり、オープンソースモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-31T17:59:47Z) - MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。
まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。
そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文 参考訳(メタデータ) (2023-11-28T17:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。