論文の概要: WorldReasonBench: Human-Aligned Stress Testing of Video Generators as Future World-State Predictors
- arxiv url: http://arxiv.org/abs/2605.10434v1
- Date: Mon, 11 May 2026 12:06:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.791688
- Title: WorldReasonBench: Human-Aligned Stress Testing of Video Generators as Future World-State Predictors
- Title(参考訳): WorldReasonBench:将来的な世界予測者としてのビデオジェネレータの人為的なストレステスト
- Authors: Keming Wu, Yijing Cui, Wenhan Xue, Qijie Wang, Xuan Luo, Zhiyuan Feng, Zuhao Yang, Sudong Wang, Sicong Jiang, Haowei Zhu, Zihan Wang, Ping Nie, Wenhu Chen, Bin Wang,
- Abstract要約: 本稿では,映像生成評価を世界状態予測として再設定するWorldReasonBenchを紹介する。
人手による2部構成手法を用いて生成した映像の評価を行った。
WorldRewardBenchは、約6Kのエキスパートアノテートされたペアが1.4Kビデオに対して設定された選好ベンチマークである。
- 参考スコア(独自算出の注目度): 45.545823511469166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Commercial video generation systems such as Seedance2.0 and Veo3.1 have rapidly improved, strengthening the view that video generators may be evolving into "world simulators." Yet the community still lacks a benchmark that directly tests whether a model can reason about how an observed world should evolve over time. We introduce WorldReasonBench, which reframes video generation evaluation as world-state prediction: given an initial state and an action, can a model generate a future video whose state evolution remains physically, socially, logically, and informationally consistent? WorldReasonBench contains 436 curated test cases with structured ground-truth QA annotations spanning four reasoning dimensions and 22 subcategories. We evaluate generated videos with a human-aligned two-part methodology: Process-aware Reasoning Verification uses structured QA and reasoning-phase diagnostics to detect temporal and causal failures, while Multi-dimensional Quality Assessment scores reasoning quality, temporal consistency, and visual aesthetics for ranking and reward modeling. We further introduce WorldRewardBench, a preference benchmark with approximately 6K expert-annotated pairs over 1.4K videos, supporting pair-wise and point-wise reward-model evaluation. Across modern video generators, our results expose a persistent gap between visual plausibility and world reasoning: videos can look convincing while failing dynamics, causality, or information preservation. We will release our benchmarks and evaluation toolkit to support community research on genuinely world-aware video generation at https://github.com/UniX-AI-Lab/WorldReasonBench/.
- Abstract(参考訳): Seedance2.0やVeo3.1のような商用ビデオ生成システムは急速に改善され、ビデオジェネレータが「世界シミュレータ」に進化しつつあるという見方が強まった。
しかし、コミュニティはまだ、観察された世界が時間とともにどのように進化すべきかをモデルが推論できるかどうかを直接テストするベンチマークを欠いている。
初期状態とアクションが与えられたら、モデルは、物理的、社会的、論理的、情報的に整合した状態の将来のビデオを生成することができるか?
WorldReasonBenchには、4つの推論次元と22のサブカテゴリにまたがる構造化された接地型QAアノテーションを備えた436のキュレートされたテストケースが含まれている。
プロセス認識推論検証では、構造化されたQAと推論フェーズの診断を用いて時間的・因果的故障を検知し、多次元品質評価では、品質、時間的一貫性、視覚的美学を評価・評価する。
さらに、約6Kのエキスパートアノテートペアを1.4Kビデオ上に配置し、ペアワイドとポイントワイドの報酬モデル評価をサポートする選好ベンチマークであるWorldRewardBenchを紹介する。
現代のビデオジェネレータでは、ビデオはダイナミックス、因果性、情報保存に失敗しながら説得力のあるように見える。
我々はベンチマークと評価ツールキットをリリースし、https://github.com/UniX-AI-Lab/WorldReasonBench/で真に世界対応のビデオ生成に関するコミュニティリサーチをサポートする。
関連論文リスト
- VIPER: Process-aware Evaluation for Generative Video Reasoning [64.86465792516658]
我々は、時間的、構造的、象徴的、空間的、物理的、計画的推論にまたがる16のタスクにまたがる包括的なベンチマークVIPERを紹介する。
実験の結果,現状の映像モデルでは約20%のPOC@1.0しか達成できず,良好な結果が得られた。
論文 参考訳(メタデータ) (2025-12-31T16:31:59Z) - RULER-Bench: Probing Rule-based Reasoning Abilities of Next-level Video Generation Models for Vision Foundation Intelligence [24.51106324851909]
RULER-Benchは、認知ルールの観点から、映像生成モデルの推論能力を評価するために設計されたベンチマークである。
生成された各ビデオの評価のために、4つのメトリクスをカバーするチェックリストを構築し、GPT-o3を利用して各質問にスコアを割り当てる。
実験により、最先端のモデルはルールコヒーレンスメートル法で48.87%しか達成していないことが示されている。
論文 参考訳(メタデータ) (2025-12-02T10:29:51Z) - V-ReasonBench: Toward Unified Reasoning Benchmark Suite for Video Generation Models [52.97290143922252]
V-ReasonBenchは、4つの主要な次元にわたるビデオ推論を評価するために設計されたベンチマークである。
6つの最先端ビデオモデルの評価は、明らかに次元的な違いを示している。
全体として、V-ReasonBenchは、ビデオ推論を測定する統一的で再現可能なフレームワークを提供する。
論文 参考訳(メタデータ) (2025-11-20T18:59:42Z) - VBench-2.0: Advancing Video Generation Benchmark Suite for Intrinsic Faithfulness [74.17234924159108]
本稿では,本質的な忠実度を示すビデオ生成モデルを評価するためのベンチマークであるVBench-2.0を紹介する。
VBench-2.0は、人間の忠実さ、コントロール可能性、創造性、物理学、コモンセンスの5つの重要な次元を評価している。
我々は、人間の判断に一致した評価を確保するために、広範囲な人間のアノテーションを実行します。
論文 参考訳(メタデータ) (2025-03-27T17:57:01Z) - VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models [111.5892290894904]
VBenchは、"ビデオ生成品質"を特定の、階層的、そして非絡み合ったディメンションに分解するベンチマークスイートである。
我々は、人間の知覚とベンチマークの整合性を検証するために、人間の嗜好アノテーションのデータセットを提供する。
VBench++は、テキスト・トゥ・ビデオと画像・トゥ・ビデオの評価をサポートする。
論文 参考訳(メタデータ) (2024-11-20T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。