論文の概要: V-ReasonBench: Toward Unified Reasoning Benchmark Suite for Video Generation Models
- arxiv url: http://arxiv.org/abs/2511.16668v1
- Date: Thu, 20 Nov 2025 18:59:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.812538
- Title: V-ReasonBench: Toward Unified Reasoning Benchmark Suite for Video Generation Models
- Title(参考訳): V-ReasonBench:ビデオ生成モデルのための統一推論ベンチマークスイートを目指して
- Authors: Yang Luo, Xuanlei Zhao, Baijiong Lin, Lingting Zhu, Liyao Tang, Yuqi Liu, Ying-Cong Chen, Shengju Qian, Xin Wang, Yang You,
- Abstract要約: V-ReasonBenchは、4つの主要な次元にわたるビデオ推論を評価するために設計されたベンチマークである。
6つの最先端ビデオモデルの評価は、明らかに次元的な違いを示している。
全体として、V-ReasonBenchは、ビデオ推論を測定する統一的で再現可能なフレームワークを提供する。
- 参考スコア(独自算出の注目度): 52.97290143922252
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in generative video models, such as Veo-3, has shown surprising zero-shot reasoning abilities, creating a growing need for systematic and reliable evaluation. We introduce V-ReasonBench, a benchmark designed to assess video reasoning across four key dimensions: structured problem-solving, spatial cognition, pattern-based inference, and physical dynamics. The benchmark is built from both synthetic and real-world image sequences and provides a diverse set of answer-verifiable tasks that are reproducible, scalable, and unambiguous. Evaluations of six state-of-the-art video models reveal clear dimension-wise differences, with strong variation in structured, spatial, pattern-based, and physical reasoning. We further compare video models with strong image models, analyze common hallucination behaviors, and study how video duration affects Chain-of-Frames reasoning. Overall, V-ReasonBench offers a unified and reproducible framework for measuring video reasoning and aims to support the development of models with more reliable, human-aligned reasoning skills.
- Abstract(参考訳): Veo-3のような生成ビデオモデルの最近の進歩は、驚くべきゼロショット推論能力を示し、体系的かつ信頼性の高い評価の必要性が高まっている。
V-ReasonBenchは、構造化問題解決、空間認知、パターンベース推論、物理力学の4つの主要な次元にわたるビデオ推論を評価するために設計されたベンチマークである。
このベンチマークは、合成および実世界の画像シーケンスから構築され、再現可能でスケーラブルで曖昧な様々な回答検証可能なタスクセットを提供する。
6つの最先端ビデオモデルの評価では、構造的、空間的、パターン的、物理的推論に強い違いがみられる。
さらに、映像モデルと強画像モデルを比較し、一般的な幻覚行動を分析し、ビデオの長さがフレームの連鎖推論に与える影響について検討する。
全体として、V-ReasonBenchは、ビデオ推論を計測するための統一的で再現可能なフレームワークを提供し、より信頼性が高く、人間に準拠した推論スキルを持つモデルの開発を支援することを目指している。
関連論文リスト
- Reasoning via Video: The First Evaluation of Video Models' Reasoning Abilities through Maze-Solving Tasks [42.11140720884257]
ビデオモデルは、コヒーレントモーションダイナミクスを用いた高忠実度ビデオ生成において顕著な成功を収めた。
離散テキストコーパスと比較して、ビデオグラウンドは明示的な空間的レイアウトと時間的連続性を推論する。
ビデオモデルの推論能力を体系的に評価するために設計されたベンチマークであるVR-Benchを紹介する。
論文 参考訳(メタデータ) (2025-11-19T03:18:29Z) - TiViBench: Benchmarking Think-in-Video Reasoning for Video Generative Models [42.763907973320464]
TiViBench(TiViBench)は、画像対ビデオ(I2V)生成モデルの推論能力を評価するために設計された階層型ベンチマークである。
我々は、好みの最適化にインスパイアされた、シンプルで効果的なテストタイム戦略であるVideoTPOを紹介する。
TiViBenchとVideoTPOは共に、ビデオ生成モデルにおける推論の評価と進歩の道を開いた。
論文 参考訳(メタデータ) (2025-11-17T18:52:44Z) - Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark [124.00111584020834]
我々は、ビデオモデルがゼロショット推論器として機能する準備が整っているかどうかを実証研究する。
私たちは、人気の高いVeo-3に注力しています。
我々は,空間的,幾何学的,物理的,時間的,具体的論理を含む12次元にわたる推論行動を評価する。
論文 参考訳(メタデータ) (2025-10-30T17:59:55Z) - Can Your Model Separate Yolks with a Water Bottle? Benchmarking Physical Commonsense Understanding in Video Generation Models [14.187604603759784]
本稿では,テキスト・ビデオ・システムの物理的推論能力を評価するためのベンチマークであるPhysVidBenchを紹介する。
各プロンプトに対して、さまざまな最先端モデルを用いてビデオを生成し、3段階評価パイプラインを採用する。
PhysVidBenchは、生成ビデオモデルにおける物理コモンセンスを評価するための構造化、解釈可能なフレームワークを提供する。
論文 参考訳(メタデータ) (2025-07-21T17:30:46Z) - VidBridge-R1: Bridging QA and Captioning for RL-based Video Understanding Models with Intermediate Proxy Tasks [41.90092896728809]
VidBridge-R1は、"Reason-Then-Respond"パラダイムの競合を効果的に橋渡しする、世界初の多目的ビデオ推論モデルである。
大規模な実験により、VidBridge-R1は1つのモデルにおいて、QAとキャプションの両方で大きなパフォーマンス向上を達成することが示された。
論文 参考訳(メタデータ) (2025-06-10T03:57:53Z) - VBench-2.0: Advancing Video Generation Benchmark Suite for Intrinsic Faithfulness [74.17234924159108]
本稿では,本質的な忠実度を示すビデオ生成モデルを評価するためのベンチマークであるVBench-2.0を紹介する。
VBench-2.0は、人間の忠実さ、コントロール可能性、創造性、物理学、コモンセンスの5つの重要な次元を評価している。
我々は、人間の判断に一致した評価を確保するために、広範囲な人間のアノテーションを実行します。
論文 参考訳(メタデータ) (2025-03-27T17:57:01Z) - VACT: A Video Automatic Causal Testing System and a Benchmark [55.53300306960048]
VACTは、現実世界のシナリオにおけるVGMの因果的理解をモデル化、評価、測定するための**自動**フレームワークである。
マルチレベル因果評価指標を導入し、VGMの因果性能を詳細に分析する。
論文 参考訳(メタデータ) (2025-03-08T10:54:42Z) - ACQUIRED: A Dataset for Answering Counterfactual Questions In Real-Life
Videos [53.92440577914417]
ACQUIREDは3.9Kの注釈付きビデオで構成され、幅広いイベントタイプを包含し、ファーストパーソンとサードパーソンの両方の視点を取り入れている。
各ビデオは、物理的、社会的、時間的な3つの異なる推論の次元にまたがる質問で注釈付けされている。
我々は,現在最先端の言語のみおよびマルチモーダルモデルに対して,我々のデータセットをベンチマークし,実験結果から大きな性能差が示された。
論文 参考訳(メタデータ) (2023-11-02T22:17:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。