論文の概要: VideoCogQA: A Controllable Benchmark for Evaluating Cognitive Abilities in Video-Language Models
- arxiv url: http://arxiv.org/abs/2411.09105v2
- Date: Tue, 01 Jul 2025 03:47:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-02 15:54:39.958064
- Title: VideoCogQA: A Controllable Benchmark for Evaluating Cognitive Abilities in Video-Language Models
- Title(参考訳): VideoCogQA:ビデオ言語モデルにおける認知能力評価のための制御可能なベンチマーク
- Authors: Chenglin Li, Qianglong Chen, Zhi Li, Feng Tao, Yin Zhang,
- Abstract要約: LVLM(Large Video-Language Models)は、マルチモーダルビデオ理解において有望な結果をもたらす。
これらのモデルが高レベルのタスクに必要な認知能力を持っているか、特に象徴的、抽象的な知覚にかかわっているかは不明だ。
ゲーム環境にインスパイアされたスケーラブルで完全に制御可能なベンチマークであるVideoCogQAを提案する。
プログラムエンジンを介して合成ビデオを生成することで、VideoCogQAは視覚要素、時間的ダイナミクス、タスクの難しさを細かく制御できる。
- 参考スコア(独自算出の注目度): 19.215440092652507
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advancements in Large Video-Language Models (LVLMs) have led to promising results in multimodal video understanding. However, it remains unclear whether these models possess the cognitive capabilities required for high-level tasks, particularly those involving symbolic and abstract perception. Existing benchmarks typically rely on real-world, annotated videos, which lack control over video content and inherent difficulty, limiting their diagnostic power. To bridge this gap, we propose VideoCogQA, a scalable and fully controllable benchmark inspired by game-world environments, designed to evaluate the cognitive abilities of LVLMs. By generating synthetic videos via a programmatic engine, VideoCogQA allows fine-grained control over visual elements, temporal dynamics, and task difficulty. This approach enables a focused evaluation of video cognitive abilities, independent of prior knowledge from visual scene semantics. The dataset includes 800 videos and 3,280 question-answer pairs, featuring tasks related to abstract concepts, symbolic elements, and multimodal integration, with varying levels of difficulty. Experimental results show that even state-of-the-art (SOTA) models, such as GPT-4o, achieve an average performance of 48.8% on tasks involving abstract concepts. Additionally, performance drops by 15% as task complexity increases, highlighting the challenges LVLMs face in maintaining consistent performance. Through this work, we hope to show the limitations of current LVLMs and offer insights into how they can more effectively emulate human cognitive processes in the future.
- Abstract(参考訳): 近年のLVLM(Large Video-Language Models)の進歩は,マルチモーダルビデオ理解において有望な成果をもたらしている。
しかし、これらのモデルが高レベルのタスクに必要な認知能力を持っているか、特に象徴的、抽象的な知覚にかかわっているかは不明である。
既存のベンチマークは、ビデオの内容と固有の困難をコントロールできず、診断力を制限している、現実世界の注釈付きビデオに依存している。
このギャップを埋めるため,LVLMの認知能力を評価するために,ゲーム環境に触発されたスケーラブルで完全に制御可能なベンチマークであるVideoCogQAを提案する。
プログラムエンジンを介して合成ビデオを生成することで、VideoCogQAは視覚要素、時間的ダイナミクス、タスクの難しさを細かく制御できる。
このアプローチは、視覚シーンのセマンティクスからの事前知識とは無関係に、映像認知能力の集中的な評価を可能にする。
データセットには800のビデオと3,280の質問応答ペアが含まれており、抽象概念、象徴的要素、マルチモーダル統合に関連するタスクを、さまざまな難易度で特徴付ける。
GPT-4oのような最先端(SOTA)モデルでさえ、抽象概念を含むタスクの平均性能は48.8%である。
さらに、タスクの複雑さが増すにつれてパフォーマンスが15%低下し、LVLMが一貫したパフォーマンスを維持する上で直面する課題が浮き彫りになる。
この研究を通じて、私たちは現在のLVLMの限界を示し、将来の人間の認知プロセスをより効果的にエミュレートする方法についての洞察を提供したいと思っています。
関連論文リスト
- VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM [81.15525024145697]
ビデオ大言語モデル (Video Large Language Models, ビデオLLM) は近年, 一般的なビデオ理解において顕著な能力を示した。
しかし、それらは主に全体論的理解に焦点を当て、きめ細かい空間的・時間的詳細を捉えるのに苦労している。
我々は,高精細度空間時間映像理解のためのビデオLLMを実現するために,VideoRefer Suiteを導入した。
論文 参考訳(メタデータ) (2024-12-31T18:56:46Z) - SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。
87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。
本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文 参考訳(メタデータ) (2024-11-25T08:04:47Z) - VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding [67.56182262082729]
本稿では,ビデオ理解において大規模視覚言語モデル(LVLM)を厳格に評価するための定量的なベンチマークであるMMBench-Videoを紹介する。
MMBench-VideoにはYouTubeの長いビデオが組み込まれており、フリーフォームの質問を採用し、実用的なユースケースを反映している。
ベンチマークは、慎重に構築された能力の分類に従って人間に注釈を付けることで、モデルの時間的推論スキルを調査するために慎重に作成されている。
論文 参考訳(メタデータ) (2024-06-20T17:26:01Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - How Good is my Video LMM? Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs [98.37571997794072]
CVRR-ES(Complex Video Reasoning and Robustness Evaluation Suite)について紹介する。
CVRR-ESは、11種類の実世界のビデオ次元にわたるビデオLMMの性能を包括的に評価する。
我々の発見は、次世代の人間中心AIシステムを構築する上で貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-05-06T17:59:45Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。
まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。
そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文 参考訳(メタデータ) (2023-11-28T17:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。