論文の概要: VideoVerse: How Far is Your T2V Generator from a World Model?
- arxiv url: http://arxiv.org/abs/2510.08398v1
- Date: Thu, 09 Oct 2025 16:18:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.19273
- Title: VideoVerse: How Far is Your T2V Generator from a World Model?
- Title(参考訳): VideoVerse:あなたのT2V発電機は世界モデルからどれくらいの距離にあるのか?
- Authors: Zeqing Wang, Xinyu Wei, Bairui Li, Zhen Guo, Jinrui Zhang, Hongyang Wei, Keze Wang, Lei Zhang,
- Abstract要約: VideoVerseは、T2Vモデルが現実世界の複雑な時間的因果関係と世界的知識を理解できるかどうかを評価するベンチマークである。
VideoVerseは、815のイベントと733のバイナリ評価質問を含む300の慎重にキュレートされたプロンプトで構成されている。
我々は、VideoVerse上で、最先端のオープンソースおよびクローズドソースT2Vモデルの体系的評価を行う。
- 参考スコア(独自算出の注目度): 25.155601280571577
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent rapid advancement of Text-to-Video (T2V) generation technologies, which are critical to build ``world models'', makes the existing benchmarks increasingly insufficient to evaluate state-of-the-art T2V models. First, current evaluation dimensions, such as per-frame aesthetic quality and temporal consistency, are no longer able to differentiate state-of-the-art T2V models. Second, event-level temporal causality, which not only distinguishes video from other modalities but also constitutes a crucial component of world models, is severely underexplored in existing benchmarks. Third, existing benchmarks lack a systematic assessment of world knowledge, which are essential capabilities for building world models. To address these issues, we introduce VideoVerse, a comprehensive benchmark that focuses on evaluating whether a T2V model could understand complex temporal causality and world knowledge in the real world. We collect representative videos across diverse domains (e.g., natural landscapes, sports, indoor scenes, science fiction, chemical and physical experiments) and extract their event-level descriptions with inherent temporal causality, which are then rewritten into text-to-video prompts by independent annotators. For each prompt, we design a suite of binary evaluation questions from the perspective of dynamic and static properties, with a total of ten carefully defined evaluation dimensions. In total, our VideoVerse comprises 300 carefully curated prompts, involving 815 events and 793 binary evaluation questions. Consequently, a human preference aligned QA-based evaluation pipeline is developed by using modern vision-language models. Finally, we perform a systematic evaluation of state-of-the-art open-source and closed-source T2V models on VideoVerse, providing in-depth analysis on how far the current T2V generators are from world models.
- Abstract(参考訳): 最近のText-to-Video(T2V)生成技術の急速な進歩は、'world model'を構築するのに重要なものであり、既存のベンチマークは、最先端のT2Vモデルを評価するのにますます不十分になっている。
第一に、フレームごとの審美的品質や時間的一貫性といった現在の評価次元は、最先端のT2Vモデルを区別することができない。
第2に、ビデオと他のモダリティを区別するだけでなく、世界モデルの重要なコンポーネントを構成する事象レベルの時間的因果関係は、既存のベンチマークではひどく過小評価されている。
第3に、既存のベンチマークには、世界モデルを構築する上で不可欠な機能である、世界知識の体系的な評価が欠けている。
これらの問題に対処するために、T2Vモデルが現実世界の複雑な時間的因果性や世界的知識を理解できるかどうかを評価するための総合的なベンチマークであるVideoVerseを紹介した。
さまざまな領域(自然景観、スポーツ、屋内シーン、SF、化学実験、物理実験など)にまたがる代表的ビデオを収集し、固有の時間的因果関係でイベントレベルの記述を抽出し、独立アノテータによってテキストからビデオへのプロンプトに書き換える。
各プロンプトに対して、動的および静的な特性の観点から2進評価質問の組を設計し、合計で10個の慎重に定義された評価次元を設計する。
私たちのVideoVerseは、300件の慎重にキュレートされたプロンプトで構成されており、815件のイベントと733件のバイナリ評価質問が含まれている。
その結果、現代の視覚言語モデルを用いて、人間の嗜好に整合したQAに基づく評価パイプラインを開発した。
最後に,現在のT2Vジェネレータが世界モデルからどのくらいの距離にあるかを詳細に解析し,最先端のオープンソースおよびクローズドソースT2VモデルをVideoVerse上で体系的に評価する。
関連論文リスト
- UI2V-Bench: An Understanding-based Image-to-video Generation Benchmark [35.157850129371525]
I2V(Image-to-Video)の生成は、ビデオ合成の分野において重要な焦点となっている。
既存の評価ベンチマークは主にビデオの品質や時間的一貫性といった側面に焦点を当てている。
We propose UI2V-Bench, a novel benchmark for evaluation I2V model with focus on semantic understanding and reasoning。
論文 参考訳(メタデータ) (2025-09-29T08:14:26Z) - T2VWorldBench: A Benchmark for Evaluating World Knowledge in Text-to-Video Generation [12.843117062583502]
T2VWorldBenchは,テキスト・ビデオ・モデルのワールド・ナレッジ生成能力を評価するための,最初の体系的評価フレームワークである。
人間の嗜好とスケーラブルな評価の両方に対処するため,我々のベンチマークでは,視覚言語モデル(VLM)を用いた人的評価と自動評価の両方を取り入れている。
オープンソースから商用モデルまで、現在利用可能な10の高度なテキスト・ビデオモデルを評価し、ほとんどのモデルが世界の知識を理解し、真に正しいビデオを生成することができないことを発見した。
論文 参考訳(メタデータ) (2025-07-24T05:37:08Z) - Can Your Model Separate Yolks with a Water Bottle? Benchmarking Physical Commonsense Understanding in Video Generation Models [14.187604603759784]
本稿では,テキスト・ビデオ・システムの物理的推論能力を評価するためのベンチマークであるPhysVidBenchを紹介する。
各プロンプトに対して、さまざまな最先端モデルを用いてビデオを生成し、3段階評価パイプラインを採用する。
PhysVidBenchは、生成ビデオモデルにおける物理コモンセンスを評価するための構造化、解釈可能なフレームワークを提供する。
論文 参考訳(メタデータ) (2025-07-21T17:30:46Z) - T2VEval: Benchmark Dataset and Objective Evaluation Method for T2V-generated Videos [9.742383920787413]
T2VEvalはテキスト・ビデオ品質評価のためのマルチブランチ融合方式である。
テキストとビデオの一貫性、現実性、技術的品質の3つの分野にまたがるビデオを評価する。
T2VEvalは、複数のメトリクスにわたる最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-01-15T03:11:33Z) - VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models [111.5892290894904]
VBenchは、"ビデオ生成品質"を特定の、階層的、そして非絡み合ったディメンションに分解するベンチマークスイートである。
我々は、人間の知覚とベンチマークの整合性を検証するために、人間の嗜好アノテーションのデータセットを提供する。
VBench++は、テキスト・トゥ・ビデオと画像・トゥ・ビデオの評価をサポートする。
論文 参考訳(メタデータ) (2024-11-20T17:54:41Z) - Evaluation of Text-to-Video Generation Models: A Dynamics Perspective [94.2662603491163]
既存の評価プロトコルは主に時間的一貫性とコンテンツの連続性に焦点を当てている。
本稿では,T2Vモデルを評価するための動的次元に着目した効果的な評価プロトコルDEVILを提案する。
論文 参考訳(メタデータ) (2024-07-01T08:51:22Z) - ChronoMagic-Bench: A Benchmark for Metamorphic Evaluation of Text-to-Time-lapse Video Generation [57.651809298512276]
ChronoMagic-Benchは、テキスト・トゥ・ビデオ(T2V)生成ベンチマークである。
モデルがメタモルフィックな振幅と時間的コヒーレンスを持つタイムラプスビデオを生成する能力に焦点を当てている。
10種類の代表的なT2Vモデルの手動評価を行い、その強度と弱点を明らかにした。
大規模なChronoMagic-Proデータセットを作成し、460kの高品質な720pタイムラプスビデオを含む。
論文 参考訳(メタデータ) (2024-06-26T17:50:47Z) - Subjective-Aligned Dataset and Metric for Text-to-Video Quality Assessment [54.00254267259069]
現在までに最大規模のテキスト・ビデオ品質評価データベース(T2VQA-DB)を構築している。
データセットは、9つの異なるT2Vモデルによって生成される1万のビデオで構成されている。
主観的テキスト・ビデオ品質評価(T2VQA)のためのトランスフォーマーに基づく新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-03-18T16:52:49Z) - VBench: Comprehensive Benchmark Suite for Video Generative Models [100.43756570261384]
VBenchは、"ビデオ生成品質"を特定の、階層的、そして非絡み合ったディメンションに分解するベンチマークスイートである。
我々は、人間の知覚とベンチマークの整合性を検証するために、人間の嗜好アノテーションのデータセットを提供する。
VBenchは、すべてのプロンプト、評価方法、生成されたビデオ、人間の好みのアノテーションを含むオープンソースとして公開します。
論文 参考訳(メタデータ) (2023-11-29T18:39:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。