論文の概要: VCRBench: Exploring Long-form Causal Reasoning Capabilities of Large Video Language Models
- arxiv url: http://arxiv.org/abs/2505.08455v1
- Date: Tue, 13 May 2025 11:35:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.536657
- Title: VCRBench: Exploring Long-form Causal Reasoning Capabilities of Large Video Language Models
- Title(参考訳): VCRBench: 大規模ビデオ言語モデルの長大な因果推論機能を探る
- Authors: Pritam Sarkar, Ali Etemad,
- Abstract要約: ビデオベース長周期因果推論(VCRBench)という新しいベンチマークを導入する。
VCRBenchは、LVLM(Large Video Language Model)が特定の目標を達成するために必要なイベントを特定し、推論し、正しくシーケンスできるかどうかをテストする。
本稿では,ビデオに基づく因果推論を,ビデオ認識と因果推論の2つのサブタスクに分割するモジュラーアプローチである認識推論分解(RRD)を提案する。
- 参考スコア(独自算出の注目度): 29.706347050700867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent advances in video understanding, the capabilities of Large Video Language Models (LVLMs) to perform video-based causal reasoning remains underexplored, largely due to the absence of relevant and dedicated benchmarks for evaluating causal reasoning in visually grounded and goal-driven settings. To fill this gap, we introduce a novel benchmark named Video-based long-form Causal Reasoning (VCRBench). We create VCRBench using procedural videos of simple everyday activities, where the steps are deliberately shuffled with each clip capturing a key causal event, to test whether LVLMs can identify, reason about, and correctly sequence the events needed to accomplish a specific goal. Moreover, the benchmark is carefully designed to prevent LVLMs from exploiting linguistic shortcuts, as seen in multiple-choice or binary QA formats, while also avoiding the challenges associated with evaluating open-ended QA. Our evaluation of state-of-the-art LVLMs on VCRBench suggests that these models struggle with video-based long-form causal reasoning, primarily due to their difficulty in modeling long-range causal dependencies directly from visual observations. As a simple step toward enabling such capabilities, we propose Recognition-Reasoning Decomposition (RRD), a modular approach that breaks video-based causal reasoning into two sub-tasks of video recognition and causal reasoning. Our experiments on VCRBench show that RRD significantly boosts accuracy on VCRBench, with gains of up to 25.2%. Finally, our thorough analysis reveals interesting insights, for instance, that LVLMs primarily rely on language knowledge for complex video-based long-form causal reasoning tasks.
- Abstract(参考訳): ビデオ理解の最近の進歩にもかかわらず、ビデオベースの因果推論を行うLVLM(Large Video Language Models)の能力は、主に視覚的に接地されたゴール駆動的な設定において因果推論を評価するための関連性および専用ベンチマークが欠如していることから、未調査のままである。
このギャップを埋めるために、ビデオベースの長周期因果推論(VCRBench)という新しいベンチマークを導入する。
ステップは、重要な因果イベントをキャプチャする各クリップで意図的にシャッフルされ、LVLMが特定の目標を達成するために必要なイベントを識別し、推論し、正しくシーケンスできるかどうかをテストする。
さらに、このベンチマークは、複数選択やバイナリQAフォーマットに見られるような言語的ショートカットをLVLMが活用することを防ぐとともに、オープンエンドQAの評価に関わる問題を回避するために慎重に設計されている。
VCRBench上での最先端のLVLMの評価は、これらのモデルがビデオベースのロングフォーム因果推論に苦慮していることを示唆している。
このような機能を実現するための単純なステップとして、ビデオベースの因果推論を2つのサブタスクに分割し、因果推論と因果推論の2つのサブタスクに分割するモジュラーアプローチである認識推論分解(RRD)を提案する。
VCRBenchに関する我々の実験は、RDDがVCRBenchの精度を大幅に向上し、最大25.2%のゲインが得られたことを示している。
最後に、我々の徹底的な分析は、例えばLVLMが複雑なビデオベースのロングフォーム因果推論タスクに言語知識を主に頼っているという興味深い洞察を明らかにします。
関連論文リスト
- V-STaR: Benchmarking Video-LLMs on Video Spatio-Temporal Reasoning [40.18308199837137]
これらの問題点に対処するために,ビデオS-テンポラル推論(V-STa)ベンチマークを導入する。
我々は,ビデオLLMの時空間推論プロセスを実現するためのデータセットを構築した。
14のビデオ-LLMによる実験では、現在のビデオ-LLMと、堅牢で一貫性のある推論の必要性の間に大きなギャップが示されている。
論文 参考訳(メタデータ) (2025-03-14T15:21:44Z) - Cross-modal Causal Relation Alignment for Video Question Grounding [44.97933293141372]
ビデオQG(Video question grounding)では、質問に答え、関連するビデオセグメントを同時に推論して回答をサポートする必要がある。
既存のビデオQG手法は、通常、急激な相互モーダルな相関に悩まされ、意図された問題と一致した支配的な視覚シーンを特定することに失敗する。
本稿では,CRA(Cross-modal Causal Relation Alignment)と呼ばれる新しいビデオQGフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-05T01:36:32Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - Investigating Video Reasoning Capability of Large Language Models with Tropes in Movies [69.28082193942991]
本稿では、これまで見過ごされていた2つの重要なビデオ推論スキルを探索するためのテストベッドとして設計された、新しいデータセットであるTropes in Movies (TiM)を紹介する。
映画ストーリーテリングのトポロジを利用して、TiMは最先端のLCMベースのアプローチの推論能力を評価する。
これらの欠陥に対処するために、FEVoRI(Face-Enhanced Viper of Role Interactions)とConQueR(Context Query Reduction)を提案する。
論文 参考訳(メタデータ) (2024-06-16T12:58:31Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - Visual Causal Scene Refinement for Video Question Answering [117.08431221482638]
本稿では,ビデオQAの因果的解析を行い,視覚因果的シーンリファインメント (VCSR) という,相互因果的推論のための枠組みを提案する。
我々のVCSRには2つの重要なモジュールがあり、質問セマンティクスによって導かれる連続的なビデオフレームを洗練し、因果的フロントドア介入のためのより代表的なセグメント特徴を得る。
NExT-QA、Causal-VidQA、MSRVTT-QAデータセットの実験は、視覚因果シーンの発見と堅牢なビデオ質問応答の実現におけるVCSRの優位性を実証している。
論文 参考訳(メタデータ) (2023-05-07T09:05:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。