論文の概要: T2VWorldBench: A Benchmark for Evaluating World Knowledge in Text-to-Video Generation
- arxiv url: http://arxiv.org/abs/2507.18107v1
- Date: Thu, 24 Jul 2025 05:37:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:43.021875
- Title: T2VWorldBench: A Benchmark for Evaluating World Knowledge in Text-to-Video Generation
- Title(参考訳): T2VWorldBench: テキスト・ビデオ・ジェネレーションにおける世界知識評価ベンチマーク
- Authors: Yubin Chen, Xuyang Guo, Zhenmei Shi, Zhao Song, Jiahao Zhang,
- Abstract要約: T2VWorldBenchは,テキスト・ビデオ・モデルのワールド・ナレッジ生成能力を評価するための,最初の体系的評価フレームワークである。
人間の嗜好とスケーラブルな評価の両方に対処するため,我々のベンチマークでは,視覚言語モデル(VLM)を用いた人的評価と自動評価の両方を取り入れている。
オープンソースから商用モデルまで、現在利用可能な10の高度なテキスト・ビデオモデルを評価し、ほとんどのモデルが世界の知識を理解し、真に正しいビデオを生成することができないことを発見した。
- 参考スコア(独自算出の注目度): 12.843117062583502
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Text-to-video (T2V) models have shown remarkable performance in generating visually reasonable scenes, while their capability to leverage world knowledge for ensuring semantic consistency and factual accuracy remains largely understudied. In response to this challenge, we propose T2VWorldBench, the first systematic evaluation framework for evaluating the world knowledge generation abilities of text-to-video models, covering 6 major categories, 60 subcategories, and 1,200 prompts across a wide range of domains, including physics, nature, activity, culture, causality, and object. To address both human preference and scalable evaluation, our benchmark incorporates both human evaluation and automated evaluation using vision-language models (VLMs). We evaluated the 10 most advanced text-to-video models currently available, ranging from open source to commercial models, and found that most models are unable to understand world knowledge and generate truly correct videos. These findings point out a critical gap in the capability of current text-to-video models to leverage world knowledge, providing valuable research opportunities and entry points for constructing models with robust capabilities for commonsense reasoning and factual generation.
- Abstract(参考訳): テキスト・トゥ・ビデオ(T2V)モデルは、視覚的に合理的なシーンを生成するのに顕著な性能を示し、セマンティック・一貫性と事実的正確性を保証するために世界知識を活用する能力は、いまだほとんど検討されていない。
この課題に対応するため、本研究では、物理、自然、活動、文化、因果性、対象を含む幅広い分野にわたる6つの主要カテゴリ、60のサブカテゴリ、1200のプロンプトをカバーする、テキスト・ビデオ・モデルの世界知識生成能力を評価するための最初の体系的評価フレームワークであるT2VWorldBenchを提案する。
人間の嗜好とスケーラブルな評価の両方に対処するため,我々のベンチマークでは,視覚言語モデル(VLM)を用いた人的評価と自動評価の両方を取り入れた。
オープンソースから商用モデルまで、現在利用可能な10の高度なテキスト・ビデオモデルを評価し、ほとんどのモデルが世界の知識を理解し、真に正しいビデオを生成することができないことを発見した。
これらの知見は、現在のテキスト・ビデオモデルが世界知識を活用する能力において重要なギャップを指摘し、コモンセンス推論と事実生成のための堅牢なモデル構築のための貴重な研究機会とエントリーポイントを提供する。
関連論文リスト
- T2VTextBench: A Human Evaluation Benchmark for Textual Control in Video Generation Models [12.120541052871486]
T2VTextBenchは、画面上のテキストの忠実度と時間的一貫性を評価するための最初の人間評価ベンチマークである。
オープンソースソリューションから商用製品まで,10の最先端システムを評価しました。
論文 参考訳(メタデータ) (2025-05-08T04:49:52Z) - Can You Count to Nine? A Human Evaluation Benchmark for Counting Limits in Modern Text-to-Video Models [19.51519289698524]
T2VCountBenchは2025年現在、SOTAのテキスト・ビデオ・モデルのカウント能力を評価するための特殊なベンチマークである。
実験の結果,既存のモデルはすべて基本的な数値処理に苦しむことが明らかとなった。
本研究は,現状のテキスト・ビデオ生成における重要な課題を取り上げ,基礎的数値制約への順応性向上を目的とした今後の研究への洞察を提供する。
論文 参考訳(メタデータ) (2025-04-05T04:13:06Z) - VBench-2.0: Advancing Video Generation Benchmark Suite for Intrinsic Faithfulness [76.16523963623537]
本稿では,本質的な忠実度を示すビデオ生成モデルを評価するためのベンチマークであるVBench-2.0を紹介する。
VBench-2.0は、人間の忠実さ、コントロール可能性、創造性、物理学、コモンセンスの5つの重要な次元を評価している。
VBench-2.0は、表面的な忠実性から本質的な忠実性までを推し進めることで、次世代のビデオ生成モデルの新たな標準を確立することを目指している。
論文 参考訳(メタデータ) (2025-03-27T17:57:01Z) - VideoWorld: Exploring Knowledge Learning from Unlabeled Videos [119.35107657321902]
この研究は、深層生成モデルが視覚入力のみから複雑な知識を学習できるかどうかを考察する。
我々は、未ラベルのビデオデータに基づいて訓練された自動回帰ビデオ生成モデルであるVideoWorldを開発し、ビデオベースのGoとロボット制御タスクにおける知識獲得能力をテストする。
論文 参考訳(メタデータ) (2025-01-16T18:59:10Z) - T2VEval: Benchmark Dataset and Objective Evaluation Method for T2V-generated Videos [9.742383920787413]
T2VEvalはテキスト・ビデオ品質評価のためのマルチブランチ融合方式である。
テキストとビデオの一貫性、現実性、技術的品質の3つの分野にまたがるビデオを評価する。
T2VEvalは、複数のメトリクスにわたる最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-01-15T03:11:33Z) - Is Your World Simulator a Good Story Presenter? A Consecutive Events-Based Benchmark for Future Long Video Generation [71.32108638269517]
我々は、ストーリー指向のベンチマークであるStoryEvalを紹介し、テキスト・トゥ・ビデオ(T2V)モデルのストーリー・コンプリート機能を評価する。
StoryEvalは7つのクラスにまたがる423のプロンプトを備えている。
我々は、GPT-4VやLLaVA-OV-Chat-72Bといった高度な視覚言語モデルを用いて、生成されたビデオ内の各イベントの完了を検証する。
論文 参考訳(メタデータ) (2024-12-17T23:00:42Z) - VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models [111.5892290894904]
VBenchは、"ビデオ生成品質"を特定の、階層的、そして非絡み合ったディメンションに分解するベンチマークスイートである。
我々は、人間の知覚とベンチマークの整合性を検証するために、人間の嗜好アノテーションのデータセットを提供する。
VBench++は、テキスト・トゥ・ビデオと画像・トゥ・ビデオの評価をサポートする。
論文 参考訳(メタデータ) (2024-11-20T17:54:41Z) - Elements of World Knowledge (EWoK): A Cognition-Inspired Framework for Evaluating Basic World Knowledge in Language Models [51.891804790725686]
要素・オブ・ワールド・ナレッジ(Elements of World Knowledge, EWoK)は、言語モデルによる世界モデリングの基礎となる概念的知識の理解を評価するためのフレームワークである。
EWoK-core-1.0は世界11の知識領域をカバーする4,374項目のデータセットである。
すべてのテストされたモデルは人間よりもパフォーマンスが悪く、その結果はドメインによって大きく異なる。
論文 参考訳(メタデータ) (2024-05-15T17:19:42Z) - Towards A Better Metric for Text-to-Video Generation [102.16250512265995]
生成モデルは高品質のテキスト、画像、ビデオの合成において顕著な能力を示した。
新たな評価パイプラインであるText-to-Video Score(T2VScore)を導入する。
本尺度は,(1)テキスト記述における映像の忠実度を精査するテキスト・ビデオ・アライメント,(2)ビデオ品質,(2)ビデオ全体の製作口径を専門家の混合で評価するビデオ品質の2つの重要な基準を統合した。
論文 参考訳(メタデータ) (2024-01-15T15:42:39Z) - EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。
そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。