論文の概要: CVBench: Evaluating Cross-Video Synergies for Complex Multimodal Understanding and Reasoning
- arxiv url: http://arxiv.org/abs/2508.19542v2
- Date: Thu, 28 Aug 2025 14:22:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 13:55:31.754552
- Title: CVBench: Evaluating Cross-Video Synergies for Complex Multimodal Understanding and Reasoning
- Title(参考訳): CVBench: 複雑なマルチモーダル理解と推論のためのクロスビデオシナジーの評価
- Authors: Nannan Zhu, Yonghao Dong, Teng Wang, Xueqian Li, Shengjun Deng, Yijia Wang, Zheng Hong, Tiantian Geng, Guo Niu, Hanyan Huang, Xiongfei Yao, Shuaiwei Jiao,
- Abstract要約: CVBenchは,ビデオ間のリレーショナル推論を厳格に評価するために設計された,最初の総合的なベンチマークである。
CVBenchは、クロスビデオオブジェクトアソシエーション、クロスビデオイベントアソシエーション、クロスビデオ複合推論の3層にまたがる1000の質問応答ペアで構成されている。
5つのドメインの異なるビデオクラスタから構築されたこのベンチマークは、ダイナミックな視覚的コンテキストにまたがる情報を合成するモデルに挑戦する。
- 参考スコア(独自算出の注目度): 11.478276629279526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While multimodal large language models (MLLMs) exhibit strong performance on single-video tasks (e.g., video question answering), their ability across multiple videos remains critically underexplored. However, this capability is essential for real-world applications, including multi-camera surveillance and cross-video procedural learning. To bridge this gap, we present CVBench, the first comprehensive benchmark designed to assess cross-video relational reasoning rigorously. CVBench comprises 1,000 question-answer pairs spanning three hierarchical tiers: cross-video object association (identifying shared entities), cross-video event association (linking temporal or causal event chains), and cross-video complex reasoning (integrating commonsense and domain knowledge). Built from five domain-diverse video clusters (e.g., sports, life records), the benchmark challenges models to synthesise information across dynamic visual contexts. Extensive evaluation of 10+ leading MLLMs (including GPT-4o, Gemini-2.0-flash, Qwen2.5-VL) under zero-shot or chain-of-thought prompting paradigms. Key findings reveal stark performance gaps: even top models, such as GPT-4o, achieve only 60% accuracy on causal reasoning tasks, compared to the 91% accuracy of human performance. Crucially, our analysis reveals fundamental bottlenecks inherent in current MLLM architectures, notably deficient inter-video context retention and poor disambiguation of overlapping entities. CVBench establishes a rigorous framework for diagnosing and advancing multi-video reasoning, offering architectural insights for next-generation MLLMs. The data and evaluation code are available at https://github.com/Hokhim2/CVBench.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)はシングルビデオタスク(例えば、ビデオ質問応答)において高い性能を示すが、複数のビデオにまたがる能力はいまだに過小評価されている。
しかし、この機能はマルチカメラ監視やクロスビデオプロシージャ学習など、現実世界のアプリケーションには不可欠である。
このギャップを埋めるため、CVBenchは、ビデオ間の関係性推論を厳格に評価するために設計された最初の総合的なベンチマークである。
CVBenchは、クロスビデオオブジェクトアソシエーション(共有エンティティの識別)、クロスビデオイベントアソシエーション(時間的または因果的なイベントチェーンのリンク)、クロスビデオ複雑な推論(常識とドメイン知識の統合)の3つの階層にまたがる1000の質問応答対で構成されている。
ドメインの異なる5つのビデオクラスタ(例えば、スポーツ、ライフレコード)から構築されたこのベンチマークは、動的ビジュアルコンテキスト間で情報を合成するモデルに挑戦する。
GPT-4o, Gemini-2.0-flash, Qwen2.5-VLを含む10以上のMLLMをゼロショットまたはチェーン・オブ・シンセサイティング・パラダイムで広範囲に評価した。
GPT-4oのようなトップモデルでさえ、人間のパフォーマンスの91%の精度と比較して、因果推論タスクにおいて60%の精度しか達成していない。
特にビデオ間のコンテキスト保持の欠如と重複するエンティティの曖昧さが顕著である。
CVBenchは、マルチビデオ推論の診断と進歩のための厳格なフレームワークを確立し、次世代MLLMのアーキテクチャ上の洞察を提供する。
データと評価コードはhttps://github.com/Hokhim2/CVBench.comで公開されている。
関連論文リスト
- MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks [67.31276358668424]
AV-HaystacksQAという新しいタスクを導入し、クエリに応答して、異なるビデオにまたがる有能なセグメントを識別し、それらをリンクして最も有意義な回答を生成する。
AVHaystacksは、マルチビデオ検索および時間的グラウンドタスクにおけるLMMの能力を評価するために設計された3100の注釈付きQAペアからなるオーディオビジュアルベンチマークである。
提案するAVHaystackのQAタスクにおけるBLEU@4およびGPT評価スコアの基準値よりも89%と65%の相対的な改善を実現し、モデルに依存しないマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-08T06:34:29Z) - VideoReasonBench: Can MLLMs Perform Vision-Centric Complex Video Reasoning? [18.9270920369958]
ロングチェーン・オブ・思想(CoT)推論は、複雑なタスクにおける大規模言語モデル(LLM)の性能を大幅に向上させることができる。
近年の取り組みでは、ビデオ推論を目的としたベンチマークが提案されているが、タスクは知識駆動であり、視覚コンテンツにはあまり依存していないことが多い。
視覚中心の複雑なビデオ推論を評価するためのベンチマークであるVideoReasonBenchを紹介する。
論文 参考訳(メタデータ) (2025-05-29T11:33:43Z) - SAMA: Towards Multi-Turn Referential Grounded Video Chat with Large Language Models [80.3895950009792]
ビデオにおけるきめ細かい時間的理解の獲得は、現在のビデオ大マルチモデル(ビデオLMM)にとって大きな課題である。
私たちは、データセット、モデル、ベンチマークの3つの中核的な側面に貢献しています。
まず,ビデオ理解,グラウンドニング,マルチターンビデオチャットの共用学習を実現するため、15Kビデオからなる大規模データセットであるSAMA-239Kを紹介する。
第2に,広義の時間的コンテキストアグリゲータとセグメンションモデルを組み合わせたSAMAモデルを提案する。
論文 参考訳(メタデータ) (2025-05-24T18:13:16Z) - RTV-Bench: Benchmarking MLLM Continuous Perception, Understanding and Reasoning through Real-Time Video [19.373906873461703]
RTV-BenchはMLLMリアルタイムビデオ解析のためのきめ細かいベンチマークである。
RTV-Benchは552の多様なビデオ(167.2時間)と4,631の高品質QAペアを含んでいる。
論文 参考訳(メタデータ) (2025-05-04T10:55:21Z) - VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - Towards Event-oriented Long Video Understanding [101.48089908037888]
Event-Benchは、既存のデータセットとヒューマンアノテーションに基づいて構築された、イベント指向の長いビデオ理解ベンチマークである。
VIMは、統合されたイベント集約型ビデオ命令を用いて、ビデオMLLMを強化するコスト効率のよい方法である。
論文 参考訳(メタデータ) (2024-06-20T09:14:19Z) - How Good is my Video LMM? Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs [98.37571997794072]
CVRR-ES(Complex Video Reasoning and Robustness Evaluation Suite)について紹介する。
CVRR-ESは、11種類の実世界のビデオ次元にわたるビデオLMMの性能を包括的に評価する。
我々の発見は、次世代の人間中心AIシステムを構築する上で貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-05-06T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。