論文の概要: VBench-2.0: Advancing Video Generation Benchmark Suite for Intrinsic Faithfulness
- arxiv url: http://arxiv.org/abs/2503.21755v1
- Date: Thu, 27 Mar 2025 17:57:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:52:19.226767
- Title: VBench-2.0: Advancing Video Generation Benchmark Suite for Intrinsic Faithfulness
- Title(参考訳): VBench-2.0: 内在的信条のためのビデオ生成ベンチマークスイートの改善
- Authors: Dian Zheng, Ziqi Huang, Hongbo Liu, Kai Zou, Yinan He, Fan Zhang, Yuanhan Zhang, Jingwen He, Wei-Shi Zheng, Yu Qiao, Ziwei Liu,
- Abstract要約: 本稿では,本質的な忠実度を示すビデオ生成モデルを評価するためのベンチマークであるVBench-2.0を紹介する。
VBench-2.0は、人間の忠実さ、コントロール可能性、創造性、物理学、コモンセンスの5つの重要な次元を評価している。
VBench-2.0は、表面的な忠実性から本質的な忠実性までを推し進めることで、次世代のビデオ生成モデルの新たな標準を確立することを目指している。
- 参考スコア(独自算出の注目度): 76.16523963623537
- License:
- Abstract: Video generation has advanced significantly, evolving from producing unrealistic outputs to generating videos that appear visually convincing and temporally coherent. To evaluate these video generative models, benchmarks such as VBench have been developed to assess their faithfulness, measuring factors like per-frame aesthetics, temporal consistency, and basic prompt adherence. However, these aspects mainly represent superficial faithfulness, which focus on whether the video appears visually convincing rather than whether it adheres to real-world principles. While recent models perform increasingly well on these metrics, they still struggle to generate videos that are not just visually plausible but fundamentally realistic. To achieve real "world models" through video generation, the next frontier lies in intrinsic faithfulness to ensure that generated videos adhere to physical laws, commonsense reasoning, anatomical correctness, and compositional integrity. Achieving this level of realism is essential for applications such as AI-assisted filmmaking and simulated world modeling. To bridge this gap, we introduce VBench-2.0, a next-generation benchmark designed to automatically evaluate video generative models for their intrinsic faithfulness. VBench-2.0 assesses five key dimensions: Human Fidelity, Controllability, Creativity, Physics, and Commonsense, each further broken down into fine-grained capabilities. Tailored for individual dimensions, our evaluation framework integrates generalists such as state-of-the-art VLMs and LLMs, and specialists, including anomaly detection methods proposed for video generation. We conduct extensive annotations to ensure alignment with human judgment. By pushing beyond superficial faithfulness toward intrinsic faithfulness, VBench-2.0 aims to set a new standard for the next generation of video generative models in pursuit of intrinsic faithfulness.
- Abstract(参考訳): ビデオ生成は、非現実的なアウトプットから、視覚的に説得力があり、時間的に一貫性のあるビデオへと進化してきた。
これらのビデオ生成モデルを評価するために、VBenchのようなベンチマークが開発され、フレームごとの美学、時間的一貫性、基本的なプロンプト順守などの要素を測定する。
しかし、これらの側面は主に表面的な忠実さを表しており、ビデオが現実の原理に固執するかどうかではなく、視覚的に説得力があるように見えるかどうかに焦点を当てている。
最近のモデルは、これらの指標でますますうまく機能するが、視力的にも実用的にも現実的にもビデオを生成するのに苦戦している。
ビデオ生成を通じて真の「世界モデル」を達成するために、次のフロンティアは、生成したビデオが物理法則、常識的推論、解剖学的正確性、構成的整合性に従うことを保証するために、本質的な忠実さに置かれる。
このレベルのリアリズムを達成することは、AIによる映画製作やシミュレートされた世界モデリングのような応用に不可欠である。
このギャップを埋めるため,本質的な忠実度にビデオ生成モデルを自動的に評価する次世代ベンチマークであるVBench-2.0を紹介する。
VBench-2.0は、人間の忠実さ、コントロール可能性、創造性、物理学、コモンセンスの5つの重要な次元を評価し、それぞれがさらに細かな機能に分解される。
評価フレームワークは,個々の次元を考慮し,最先端のVLMやLDMといった一般論と,ビデオ生成のための異常検出手法を含む専門家を統合した。
我々は、人間の判断と一致させるために広範囲なアノテーションを実行します。
VBench-2.0は、表面的な忠実を本質的な忠実に推し進めることによって、本質的な忠実を追求する次世代のビデオ生成モデルの新たな標準を定めようとしている。
関連論文リスト
- VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models [111.5892290894904]
VBenchは、"ビデオ生成品質"を特定の、階層的、そして非絡み合ったディメンションに分解するベンチマークスイートである。
我々は、人間の知覚とベンチマークの整合性を検証するために、人間の嗜好アノテーションのデータセットを提供する。
VBench++は、テキスト・トゥ・ビデオと画像・トゥ・ビデオの評価をサポートする。
論文 参考訳(メタデータ) (2024-11-20T17:54:41Z) - Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation [51.750634349748736]
テキスト・ツー・ビデオ(T2V)モデルは複雑なプロンプトの可視化に大きく貢献している。
しかし、直感的な物理を正確に表現するこれらのモデルの能力はほとんど解明されていない。
本稿では,T2V生成における物理コモンセンスの正しさを評価するためにPhyGenBenchを導入する。
論文 参考訳(メタデータ) (2024-10-07T17:56:04Z) - VideoPhy: Evaluating Physical Commonsense for Video Generation [93.28748850301949]
生成したビデオが現実世界のアクティビティの物理的常識に従うかどうかを評価するためのベンチマークであるVideoPhyを提示する。
そして、さまざまな最先端のテキスト・ビデオ生成モデルからキャプションに条件付けされたビデオを生成する。
人間の評価では、既存のモデルには、与えられたテキストプロンプトに付着したビデオを生成する能力が欠けていることが判明した。
論文 参考訳(メタデータ) (2024-06-05T17:53:55Z) - Distinguish Any Fake Videos: Unleashing the Power of Large-scale Data and Motion Features [21.583246378475856]
我々は、AI生成ビデオ検出(GenVidDet)に特化して設計された広範なビデオデータセットを紹介する。
また,DuB3D(Du-Branch 3D Transformer)という,実写映像と実写映像を区別する革新的な方法を提案する。
DuB3Dは、96.77%の精度で実際の映像コンテンツと生成された映像コンテンツを区別でき、目に見えないタイプでも強力な一般化能力を持つ。
論文 参考訳(メタデータ) (2024-05-24T08:26:04Z) - Sora Generates Videos with Stunning Geometrical Consistency [75.46675626542837]
そこで本研究では,実世界の物理原理に則って生成した映像の質を評価する新しいベンチマークを提案する。
生成した映像を3次元モデルに変換する手法を用いて,3次元再構成の精度が映像品質に大きく影響しているという前提を生かした。
論文 参考訳(メタデータ) (2024-02-27T10:49:05Z) - VBench: Comprehensive Benchmark Suite for Video Generative Models [100.43756570261384]
VBenchは、"ビデオ生成品質"を特定の、階層的、そして非絡み合ったディメンションに分解するベンチマークスイートである。
我々は、人間の知覚とベンチマークの整合性を検証するために、人間の嗜好アノテーションのデータセットを提供する。
VBenchは、すべてのプロンプト、評価方法、生成されたビデオ、人間の好みのアノテーションを含むオープンソースとして公開します。
論文 参考訳(メタデータ) (2023-11-29T18:39:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。