論文の概要: CausalStep: A Benchmark for Explicit Stepwise Causal Reasoning in Videos
- arxiv url: http://arxiv.org/abs/2507.16878v1
- Date: Tue, 22 Jul 2025 12:29:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:14.712335
- Title: CausalStep: A Benchmark for Explicit Stepwise Causal Reasoning in Videos
- Title(参考訳): CausalStep:ビデオのステップワイドな因果推論のためのベンチマーク
- Authors: Xuchen Li, Xuzhao Li, Shiyu Hu, Kaiqi Huang, Wentao Zhang,
- Abstract要約: CausalStepはビデオの段階的因果推論のベンチマークである。
ビデオは因果的にリンクされたユニットに分割し、厳密な段階的な質問応答プロトコルを強制する。
ベンチマークには、6つのカテゴリに100の動画と、1,852のマルチチョイスQAペアが含まれている。
- 参考スコア(独自算出の注目度): 39.4914316747781
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large language models (LLMs) have improved reasoning in text and image domains, yet achieving robust video reasoning remains a significant challenge. Existing video benchmarks mainly assess shallow understanding and reasoning and allow models to exploit global context, failing to rigorously evaluate true causal and stepwise reasoning. We present CausalStep, a benchmark designed for explicit stepwise causal reasoning in videos. CausalStep segments videos into causally linked units and enforces a strict stepwise question-answer (QA) protocol, requiring sequential answers and preventing shortcut solutions. Each question includes carefully constructed distractors based on error type taxonomy to ensure diagnostic value. The benchmark features 100 videos across six categories and 1,852 multiple-choice QA pairs. We introduce seven diagnostic metrics for comprehensive evaluation, enabling precise diagnosis of causal reasoning capabilities. Experiments with leading proprietary and open-source models, as well as human baselines, reveal a significant gap between current models and human-level stepwise reasoning. CausalStep provides a rigorous benchmark to drive progress in robust and interpretable video reasoning.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、テキストや画像領域における推論を改善しているが、堅牢なビデオ推論を実現することは大きな課題である。
既存のビデオベンチマークは、主に浅い理解と推論を評価し、モデルがグローバルなコンテキストを活用できるようにし、真の因果関係とステップワイズ推論を厳密に評価することができない。
ビデオの段階的因果推論のために設計されたベンチマークであるCausalStepを提示する。
CausalStepは、ビデオを因果的にリンクされたユニットに分割し、厳密な段階的な質問応答(QA)プロトコルを適用し、シーケンシャルな回答を必要とし、ショートカットソリューションを防ぐ。
それぞれの質問は、診断値を保証するために、エラータイプの分類に基づく慎重に構築されたイントラクタを含んでいる。
ベンチマークには、6つのカテゴリに100の動画と、1,852のマルチチョイスQAペアが含まれている。
因果推論能力の正確な診断を可能にする総合的評価のための7つの診断指標を提案する。
主要なプロプライエタリモデルとオープンソースモデル、そして人間のベースラインによる実験は、現在のモデルと人間レベルのステップワイド推論の間に大きなギャップがあることを明らかにします。
CausalStepは、堅牢で解釈可能なビデオ推論の進歩を促進するための厳格なベンチマークを提供する。
関連論文リスト
- ImplicitQA: Going beyond frames towards Implicit Video Reasoning [36.65883181090953]
ImplicitQAは暗黙の推論でモデルをテストするために設計された新しいベンチマークである。
320以上の高品質なクリエイティビティビデオクリップから得られた、1Kの微妙な注釈付きQAペアで構成されている。
論文 参考訳(メタデータ) (2025-06-26T19:53:54Z) - Fractional Reasoning via Latent Steering Vectors Improves Inference Time Compute [57.16286134405821]
本稿では,推論時の推論強度を連続的に制御するフレームワークであるフラクショナル推論を提案する。
提案手法は, より深い推論を伴う潜在ステアリングベクトルを抽出し, 調整可能なスケーリング係数で再適用することによって機能する。
GSM8K、MATH500、GPQAの実験により、フラクショナル推論は様々な推論タスクやモデルのパフォーマンスを一貫して改善することを示した。
論文 参考訳(メタデータ) (2025-06-18T21:15:59Z) - Video-Holmes: Can MLLM Think Like Holmes for Complex Video Reasoning? [56.06537213958482]
本稿では,MLLMの複雑なビデオ推論能力を評価するためのベンチマークであるVideo-Holmesを紹介する。
Video-Holmesは270本の手動注釈付きサスペンス短編映画から1,837の質問で構成されている。
最新のMLLMを包括的に評価した結果,これらのモデルは視覚的知覚に優れるが,情報の統合にはかなりの困難が伴うことが明らかとなった。
論文 参考訳(メタデータ) (2025-05-27T16:05:01Z) - VCRBench: Exploring Long-form Causal Reasoning Capabilities of Large Video Language Models [29.706347050700867]
ビデオベース長周期因果推論(VCRBench)という新しいベンチマークを導入する。
VCRBenchは、LVLM(Large Video Language Model)が特定の目標を達成するために必要なイベントを特定し、推論し、正しくシーケンスできるかどうかをテストする。
本稿では,ビデオに基づく因果推論を,ビデオ認識と因果推論の2つのサブタスクに分割するモジュラーアプローチである認識推論分解(RRD)を提案する。
論文 参考訳(メタデータ) (2025-05-13T11:35:58Z) - MINERVA: Evaluating Complex Video Reasoning [72.12644008002566]
我々は、最新のマルチモーダルモデルのためのMINERVAと呼ばれる新しいビデオ推論データセットを提供する。
我々のデータセットはマルチモーダルであり、ビデオ領域と長さの点で多様であり、複雑なマルチステップの質問で構成されている。
我々は,様々なモデルにまたがる共通障害モードを特定するために,きめ細かいエラー解析を行い,推論エラーの分類を作成する。
論文 参考訳(メタデータ) (2025-05-01T17:41:49Z) - VCR-Bench: A Comprehensive Evaluation Framework for Video Chain-of-Thought Reasoning [22.357792064450955]
Chain-of-Thought (CoT)推論は、大規模言語モデル(LLM)と大規模視覚言語モデル(LVLM)の機能を大幅に向上させた。
VCR-Benchは,LVLMのビデオ・チェーン・オブ・ソート・リ推論機能を包括的に評価する新しいベンチマークである。
VCR-Benchは、さまざまなビデオコンテンツと期間にまたがる859の動画と、1,034の高品質な質問応答ペアで構成されている。
論文 参考訳(メタデータ) (2025-04-10T17:59:03Z) - VACT: A Video Automatic Causal Testing System and a Benchmark [55.53300306960048]
VACTは、現実世界のシナリオにおけるVGMの因果的理解をモデル化、評価、測定するための**自動**フレームワークである。
マルチレベル因果評価指標を導入し、VGMの因果性能を詳細に分析する。
論文 参考訳(メタデータ) (2025-03-08T10:54:42Z) - Unveiling Reasoning Thresholds in Language Models: Scaling, Fine-Tuning, and Interpretability through Attention Maps [3.8936716676293917]
本研究では,異なるモデルサイズと訓練データを持つデコーダのみの変換言語モデルのコンテキスト内学習能力について検討する。
我々は,複数の質問応答におけるコモンセンス推論や帰納的推論といったタスクにおいて,推論性能が著しく向上する重要なパラメータしきい値(160億)を同定する。
論文 参考訳(メタデータ) (2025-02-21T00:48:32Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。