論文の概要: VCR-Bench: A Comprehensive Evaluation Framework for Video Chain-of-Thought Reasoning
- arxiv url: http://arxiv.org/abs/2504.07956v1
- Date: Thu, 10 Apr 2025 17:59:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:23:48.654247
- Title: VCR-Bench: A Comprehensive Evaluation Framework for Video Chain-of-Thought Reasoning
- Title(参考訳): VCR-Bench: ビデオチェイン・オブ・ソート推論のための総合評価フレームワーク
- Authors: Yukun Qi, Yiming Zhao, Yu Zeng, Xikun Bao, Wenxuan Huang, Lin Chen, Zehui Chen, Jie Zhao, Zhongang Qi, Feng Zhao,
- Abstract要約: Chain-of-Thought (CoT)推論は、大規模言語モデル(LLM)と大規模視覚言語モデル(LVLM)の機能を大幅に向上させた。
VCR-Benchは,LVLMのビデオ・チェーン・オブ・ソート・リ推論機能を包括的に評価する新しいベンチマークである。
VCR-Benchは、さまざまなビデオコンテンツと期間にまたがる859の動画と、1,034の高品質な質問応答ペアで構成されている。
- 参考スコア(独自算出の注目度): 22.357792064450955
- License:
- Abstract: The advancement of Chain-of-Thought (CoT) reasoning has significantly enhanced the capabilities of large language models (LLMs) and large vision-language models (LVLMs). However, a rigorous evaluation framework for video CoT reasoning remains absent. Current video benchmarks fail to adequately assess the reasoning process and expose whether failures stem from deficiencies in perception or reasoning capabilities. Therefore, we introduce VCR-Bench, a novel benchmark designed to comprehensively evaluate LVLMs' Video Chain-of-Thought Reasoning capabilities. VCR-Bench comprises 859 videos spanning a variety of video content and durations, along with 1,034 high-quality question-answer pairs. Each pair is manually annotated with a stepwise CoT rationale, where every step is tagged to indicate its association with the perception or reasoning capabilities. Furthermore, we design seven distinct task dimensions and propose the CoT score to assess the entire CoT process based on the stepwise tagged CoT rationals. Extensive experiments on VCR-Bench highlight substantial limitations in current LVLMs. Even the top-performing model, o1, only achieves a 62.8% CoT score and an 56.7% accuracy, while most models score below 40%. Experiments show most models score lower on perception than reasoning steps, revealing LVLMs' key bottleneck in temporal-spatial information processing for complex video reasoning. A robust positive correlation between the CoT score and accuracy confirms the validity of our evaluation framework and underscores the critical role of CoT reasoning in solving complex video reasoning tasks. We hope VCR-Bench to serve as a standardized evaluation framework and expose the actual drawbacks in complex video reasoning task.
- Abstract(参考訳): CoT(Chain-of-Thought)推論の進歩は、大規模言語モデル(LLM)と大規模視覚言語モデル(LVLM)の能力を著しく向上させた。
しかし、ビデオCoT推論のための厳格な評価フレームワークはいまだに存在しない。
現在のビデオベンチマークでは、推論プロセスの適切な評価に失敗し、障害が知覚の欠陥や推論能力に起因するかどうかを明らかにすることができない。
そこで本研究では,LVLMのビデオ・チェーン・オブ・ソート・リソナリング機能を包括的に評価する新しいベンチマークであるVCR-Benchを紹介する。
VCR-Benchは、さまざまなビデオコンテンツと期間にまたがる859の動画と、1,034の高品質な質問応答ペアで構成されている。
それぞれのペアはステップワイズCoT論理で手動で注釈付けされ、各ステップは認識や推論能力との関連を示すためにタグ付けされる。
さらに、7つの異なるタスク次元を設計し、段階的にタグ付けされたCoT論理に基づいてCoTプロセス全体を評価するためのCoTスコアを提案する。
VCR-Benchの大規模な実験は、現在のLVLMのかなりの限界を浮き彫りにした。
最高性能のモデルであるo1でさえ62.8%のCoTスコアと56.7%の精度しか達成していないが、ほとんどのモデルは40%以下である。
実験では、ほとんどのモデルは推論ステップよりも知覚のスコアが低く、複雑なビデオ推論のための時間空間情報処理におけるLVLMのボトルネックが明らかになった。
CoTスコアと精度の正の相関は,評価フレームワークの有効性を確認し,複雑なビデオ推論タスクの解決におけるCoT推論の重要性を裏付けるものである。
我々は、VCR-Benchが標準化された評価フレームワークとして機能し、複雑なビデオ推論タスクにおける実際の欠点を明らかにすることを望んでいる。
関連論文リスト
- LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs [103.0226977561914]
大規模言語モデルにおけるステップバイステップの視覚的推論を促進するための包括的フレームワークを提案する。
マルチステップ推論タスクの評価に特化して設計された視覚推論ベンチマークを導入する。
第二に,個々のステップの粒度で視覚的推論品質を評価する新しい指標を提案する。
第3に、マルチステップのカリキュラム学習アプローチを用いて学習したLlamaV-o1という新しいマルチモーダル視覚推論モデルを提案する。
論文 参考訳(メタデータ) (2025-01-10T18:59:51Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - Understanding Chain-of-Thought in LLMs through Information Theory [16.78730663293352]
我々は,情報理論レンズを用いて,大規模言語モデル(LLM)におけるChain-of-Thought(CoT)推論を定式化する。
具体的には、各推論ステップにおける情報ゲインの定量化を行い、障害モードの識別を可能にする。
提案手法の有効性を,玩具およびGSM-8Kデータに対する広範囲な実験により実証し,既存の結果に基づく手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2024-11-18T19:14:36Z) - VCBench: A Controllable Benchmark for Symbolic and Abstract Challenges in Video Cognition [19.215440092652507]
本稿では,記号的および抽象的概念を含む認知能力を評価するための,制御可能なベンチマークであるVCBenchを紹介する。
Pythonベースのエンジンでビデオデータを生成することにより、VCBenchはビデオコンテンツの正確な制御を可能にする。
評価の結果、Qwen2-VL-72Bのような最先端(SOTA)モデルでさえ、抽象概念を含む単純なビデオ認識タスクに苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2024-11-14T00:26:26Z) - MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding [67.56182262082729]
本稿では,ビデオ理解において大規模視覚言語モデル(LVLM)を厳格に評価するための定量的なベンチマークであるMMBench-Videoを紹介する。
MMBench-VideoにはYouTubeの長いビデオが組み込まれており、フリーフォームの質問を採用し、実用的なユースケースを反映している。
ベンチマークは、慎重に構築された能力の分類に従って人間に注釈を付けることで、モデルの時間的推論スキルを調査するために慎重に作成されている。
論文 参考訳(メタデータ) (2024-06-20T17:26:01Z) - Knowledge-Driven CoT: Exploring Faithful Reasoning in LLMs for
Knowledge-intensive Question Answering [17.672572064705445]
CoT(Chain-of-Thought)を備えた大規模言語モデル(LLM)は、様々な下流タスクにおいて顕著な推論能力を示している。
我々は、外部知識との相互作用を通じてCoTの推論トレースを検証・修正する、KD-CoT(Knowled-Driven Chain-of-Thought)というフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-25T09:23:55Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - Group-aware Contrastive Regression for Action Quality Assessment [85.43203180953076]
ビデオ間の関係は、より正確な行動品質評価のための重要な手がかりとなることを示す。
提案手法は従来の手法よりも大きなマージンを達成し,3つのベンチマークで新たな最先端の手法を確立する。
論文 参考訳(メタデータ) (2021-08-17T17:59:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。