論文の概要: VCR-Bench: A Comprehensive Evaluation Framework for Video Chain-of-Thought Reasoning
- arxiv url: http://arxiv.org/abs/2504.07956v1
- Date: Thu, 10 Apr 2025 17:59:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 15:49:06.170084
- Title: VCR-Bench: A Comprehensive Evaluation Framework for Video Chain-of-Thought Reasoning
- Title(参考訳): VCR-Bench: ビデオチェイン・オブ・ソート推論のための総合評価フレームワーク
- Authors: Yukun Qi, Yiming Zhao, Yu Zeng, Xikun Bao, Wenxuan Huang, Lin Chen, Zehui Chen, Jie Zhao, Zhongang Qi, Feng Zhao,
- Abstract要約: Chain-of-Thought (CoT)推論は、大規模言語モデル(LLM)と大規模視覚言語モデル(LVLM)の機能を大幅に向上させた。
VCR-Benchは,LVLMのビデオ・チェーン・オブ・ソート・リ推論機能を包括的に評価する新しいベンチマークである。
VCR-Benchは、さまざまなビデオコンテンツと期間にまたがる859の動画と、1,034の高品質な質問応答ペアで構成されている。
- 参考スコア(独自算出の注目度): 22.357792064450955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advancement of Chain-of-Thought (CoT) reasoning has significantly enhanced the capabilities of large language models (LLMs) and large vision-language models (LVLMs). However, a rigorous evaluation framework for video CoT reasoning remains absent. Current video benchmarks fail to adequately assess the reasoning process and expose whether failures stem from deficiencies in perception or reasoning capabilities. Therefore, we introduce VCR-Bench, a novel benchmark designed to comprehensively evaluate LVLMs' Video Chain-of-Thought Reasoning capabilities. VCR-Bench comprises 859 videos spanning a variety of video content and durations, along with 1,034 high-quality question-answer pairs. Each pair is manually annotated with a stepwise CoT rationale, where every step is tagged to indicate its association with the perception or reasoning capabilities. Furthermore, we design seven distinct task dimensions and propose the CoT score to assess the entire CoT process based on the stepwise tagged CoT rationals. Extensive experiments on VCR-Bench highlight substantial limitations in current LVLMs. Even the top-performing model, o1, only achieves a 62.8% CoT score and an 56.7% accuracy, while most models score below 40%. Experiments show most models score lower on perception than reasoning steps, revealing LVLMs' key bottleneck in temporal-spatial information processing for complex video reasoning. A robust positive correlation between the CoT score and accuracy confirms the validity of our evaluation framework and underscores the critical role of CoT reasoning in solving complex video reasoning tasks. We hope VCR-Bench to serve as a standardized evaluation framework and expose the actual drawbacks in complex video reasoning task.
- Abstract(参考訳): CoT(Chain-of-Thought)推論の進歩は、大規模言語モデル(LLM)と大規模視覚言語モデル(LVLM)の能力を著しく向上させた。
しかし、ビデオCoT推論のための厳格な評価フレームワークはいまだに存在しない。
現在のビデオベンチマークでは、推論プロセスの適切な評価に失敗し、障害が知覚の欠陥や推論能力に起因するかどうかを明らかにすることができない。
そこで本研究では,LVLMのビデオ・チェーン・オブ・ソート・リソナリング機能を包括的に評価する新しいベンチマークであるVCR-Benchを紹介する。
VCR-Benchは、さまざまなビデオコンテンツと期間にまたがる859の動画と、1,034の高品質な質問応答ペアで構成されている。
それぞれのペアはステップワイズCoT論理で手動で注釈付けされ、各ステップは認識や推論能力との関連を示すためにタグ付けされる。
さらに、7つの異なるタスク次元を設計し、段階的にタグ付けされたCoT論理に基づいてCoTプロセス全体を評価するためのCoTスコアを提案する。
VCR-Benchの大規模な実験は、現在のLVLMのかなりの限界を浮き彫りにした。
最高性能のモデルであるo1でさえ62.8%のCoTスコアと56.7%の精度しか達成していないが、ほとんどのモデルは40%以下である。
実験では、ほとんどのモデルは推論ステップよりも知覚のスコアが低く、複雑なビデオ推論のための時間空間情報処理におけるLVLMのボトルネックが明らかになった。
CoTスコアと精度の正の相関は,評価フレームワークの有効性を確認し,複雑なビデオ推論タスクの解決におけるCoT推論の重要性を裏付けるものである。
我々は、VCR-Benchが標準化された評価フレームワークとして機能し、複雑なビデオ推論タスクにおける実際の欠点を明らかにすることを望んでいる。
関連論文リスト
- Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - Video SimpleQA: Towards Factuality Evaluation in Large Video Language Models [69.68265487134686]
Video SimpleQAは、LVLMの事実性評価に適した最初の総合的なベンチマークである。
私たちの研究は、以下の重要な機能を通じて、既存のビデオベンチマークと区別します。
答えは、簡潔なフォーマットで曖昧で決定的に正しいものとして作成されます。
論文 参考訳(メタデータ) (2025-03-24T17:46:09Z) - V-STaR: Benchmarking Video-LLMs on Video Spatio-Temporal Reasoning [40.18308199837137]
これらの問題点に対処するために,ビデオS-テンポラル推論(V-STa)ベンチマークを導入する。
我々は,ビデオLLMの時空間推論プロセスを実現するためのデータセットを構築した。
14のビデオ-LLMによる実験では、現在のビデオ-LLMと、堅牢で一貫性のある推論の必要性の間に大きなギャップが示されている。
論文 参考訳(メタデータ) (2025-03-14T15:21:44Z) - LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs [103.0226977561914]
大規模言語モデルにおけるステップバイステップの視覚的推論を促進するための包括的フレームワークを提案する。
マルチステップ推論タスクの評価に特化して設計された視覚推論ベンチマークを導入する。
第二に,個々のステップの粒度で視覚的推論品質を評価する新しい指標を提案する。
第3に、マルチステップのカリキュラム学習アプローチを用いて学習したLlamaV-o1という新しいマルチモーダル視覚推論モデルを提案する。
論文 参考訳(メタデータ) (2025-01-10T18:59:51Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - VCBench: A Controllable Benchmark for Symbolic and Abstract Challenges in Video Cognition [19.215440092652507]
本稿では,記号的および抽象的概念を含む認知能力を評価するための,制御可能なベンチマークであるVCBenchを紹介する。
Pythonベースのエンジンでビデオデータを生成することにより、VCBenchはビデオコンテンツの正確な制御を可能にする。
評価の結果、Qwen2-VL-72Bのような最先端(SOTA)モデルでさえ、抽象概念を含む単純なビデオ認識タスクに苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2024-11-14T00:26:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。