Fugu-MT 論文翻訳(概要): VBench: Comprehensive Benchmark Suite for Video Generative Models

論文の概要: VBench: Comprehensive Benchmark Suite for Video Generative Models

arxiv url: http://arxiv.org/abs/2311.17982v1
Date: Wed, 29 Nov 2023 18:39:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-01 19:13:06.412901
Title: VBench: Comprehensive Benchmark Suite for Video Generative Models
Title（参考訳）: VBench: ビデオ生成モデルのための総合ベンチマークスイート
Authors: Ziqi Huang, Yinan He, Jiashuo Yu, Fan Zhang, Chenyang Si, Yuming Jiang, Yuanhan Zhang, Tianxing Wu, Qingyang Jin, Nattapol Chanpaisit, Yaohui Wang, Xinyuan Chen, Limin Wang, Dahua Lin, Yu Qiao, Ziwei Liu
Abstract要約: VBenchは、"ビデオ生成品質"を特定の、階層的、そして非絡み合ったディメンションに分解するベンチマークスイートである。我々は、人間の知覚とベンチマークの整合性を検証するために、人間の嗜好アノテーションのデータセットを提供する。 VBenchは、すべてのプロンプト、評価方法、生成されたビデオ、人間の好みのアノテーションを含むオープンソースとして公開します。
参考スコア（独自算出の注目度）: 100.43756570261384
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video generation has witnessed significant advancements, yet evaluating these models remains a challenge. A comprehensive evaluation benchmark for video generation is indispensable for two reasons: 1) Existing metrics do not fully align with human perceptions; 2) An ideal evaluation system should provide insights to inform future developments of video generation. To this end, we present VBench, a comprehensive benchmark suite that dissects "video generation quality" into specific, hierarchical, and disentangled dimensions, each with tailored prompts and evaluation methods. VBench has three appealing properties: 1) Comprehensive Dimensions: VBench comprises 16 dimensions in video generation (e.g., subject identity inconsistency, motion smoothness, temporal flickering, and spatial relationship, etc). The evaluation metrics with fine-grained levels reveal individual models' strengths and weaknesses. 2) Human Alignment: We also provide a dataset of human preference annotations to validate our benchmarks' alignment with human perception, for each evaluation dimension respectively. 3) Valuable Insights: We look into current models' ability across various evaluation dimensions, and various content types. We also investigate the gaps between video and image generation models. We will open-source VBench, including all prompts, evaluation methods, generated videos, and human preference annotations, and also include more video generation models in VBench to drive forward the field of video generation.
Abstract（参考訳）: ビデオ生成は大きな進歩を見せているが、これらのモデルの評価は依然として課題である。ビデオ生成のための総合評価ベンチマークは2つの理由から不可欠である。 1)既存の指標は,人間の知覚と完全に一致しない。 2) 理想的な評価システムは,映像生成の今後の展開を知るための洞察を提供する必要がある。そこで本研究では,映像生成品質」を具体的,階層的,異方的な次元に分類し,それぞれにプロンプトと評価手法を合わせた総合ベンチマークスイートvbenchを提案する。 VBenchには3つの魅力的な特性がある。 1) 包括次元: VBenchはビデオ生成において16次元からなる(例えば、主観的アイデンティティの不整合、運動の滑らか性、時間的フリッカリング、空間的関係など)。きめ細かいレベルの評価指標は、個々のモデルの強みと弱みを明らかにする。 2) 人間のアライメント: 評価次元ごとに, ベンチマークと人間の知覚との整合性を評価するために, 人間の嗜好アノテーションのデータセットも提供する。 3)有意義な洞察: さまざまな評価範囲、さまざまなコンテンツタイプにまたがる現在のモデルの能力を考察する。また,映像生成モデルと映像生成モデルとのギャップについても検討する。我々はVBenchをオープンソースとして公開し、すべてのプロンプト、評価方法、生成されたビデオ、人間の嗜好アノテーションを含むとともに、VBenchにより多くのビデオ生成モデルを含め、ビデオ生成の分野を前進させる。

関連論文リスト

Video-Bench: Human-Aligned Video Generation Benchmark [26.31594706735867]
生成モデルが視覚的にリアルで高品質なビデオを生成することを保証するためには、ビデオ生成アセスメントが不可欠である。本稿では,豊富なプロンプトスイートと広範囲な評価次元を備えた総合的なベンチマークであるVideo-Benchを紹介する。 Soraを含む先進的なモデルの実験は、ビデオベンチがあらゆる次元にわたる人間の好みと優れた整合性を達成することを示した。
論文参考訳（メタデータ） (2025-04-07T10:32:42Z)
VBench-2.0: Advancing Video Generation Benchmark Suite for Intrinsic Faithfulness [76.16523963623537]
本稿では,本質的な忠実度を示すビデオ生成モデルを評価するためのベンチマークであるVBench-2.0を紹介する。 VBench-2.0は、人間の忠実さ、コントロール可能性、創造性、物理学、コモンセンスの5つの重要な次元を評価している。 VBench-2.0は、表面的な忠実性から本質的な忠実性までを推し進めることで、次世代のビデオ生成モデルの新たな標準を確立することを目指している。
論文参考訳（メタデータ） (2025-03-27T17:57:01Z)
What Are You Doing? A Closer Look at Controllable Human Video Generation [73.89117620413724]
What Are You Doing?」は、人間の制御可能な画像とビデオの生成を評価するための新しいベンチマークである。このビデオは、1,544本のキャプション付きビデオで構成されており、56の細かなカテゴリーで細かな収集と注釈付けがなされている。制御可能な画像・映像生成における7つの最先端モデルの詳細な解析を行う。
論文参考訳（メタデータ） (2025-03-06T17:59:29Z)
GRADEO: Towards Human-Like Evaluation for Text-to-Video Generation via Multi-Step Reasoning [62.775721264492994]
GRADEOは、最初に設計されたビデオ評価モデルの1つである。説明可能なスコアと評価のためにAIが生成したビデオを、多段階の推論によって評価する。実験の結果,本手法は既存手法よりも人的評価に適合していることがわかった。
論文参考訳（メタデータ） (2025-03-04T07:04:55Z)
VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models [111.5892290894904]
VBenchは、"ビデオ生成品質"を特定の、階層的、そして非絡み合ったディメンションに分解するベンチマークスイートである。我々は、人間の知覚とベンチマークの整合性を検証するために、人間の嗜好アノテーションのデータセットを提供する。 VBench++は、テキスト・トゥ・ビデオと画像・トゥ・ビデオの評価をサポートする。
論文参考訳（メタデータ） (2024-11-20T17:54:41Z)
VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。 VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文参考訳（メタデータ） (2024-10-09T17:46:34Z)
Video-Bench: A Comprehensive Benchmark and Toolkit for Evaluating Video-based Large Language Models [81.84810348214113]
ビデオベースの大規模言語モデル(Video-LLMs)が最近導入され、認識と理解の基本的な改善と多様なユーザからの問い合わせの両方をターゲットにしている。このようなモデルの開発を導くため、堅牢で包括的な評価システムの構築が重要となる。本稿では,ビデオLLMの評価に特化して設計されたツールキットとともに,新しい総合的なベンチマークであるtextitVideo-Benchを提案する。
論文参考訳（メタデータ） (2023-11-27T18:59:58Z)
EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文参考訳（メタデータ） (2023-10-17T17:50:46Z)
DeVAn: Dense Video Annotation for Video-Language Models [68.70692422636313]
実世界のビデオクリップに記述を生成する視覚言語モデルの有効性を評価するために,人間の注釈付きデータセットを提案する。データセットには、20秒から60秒間の8.5KのYouTubeビデオクリップが含まれており、幅広いトピックや関心事をカバーしている。
論文参考訳（メタデータ） (2023-10-08T08:02:43Z)
What comprises a good talking-head video generation?: A Survey and Benchmark [40.26689818789428]
本稿では,標準化されたデータセット前処理戦略を用いた対話型ビデオ生成の評価ベンチマークを提案する。提案手法は,対話型ビデオに望ましい特性とみなす結果を評価するために,新しい指標を提案するか,最も適した指標を選択する。
論文参考訳（メタデータ） (2020-05-07T01:58:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。