論文の概要: GRADEO: Towards Human-Like Evaluation for Text-to-Video Generation via Multi-Step Reasoning
- arxiv url: http://arxiv.org/abs/2503.02341v1
- Date: Tue, 04 Mar 2025 07:04:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 18:50:39.211193
- Title: GRADEO: Towards Human-Like Evaluation for Text-to-Video Generation via Multi-Step Reasoning
- Title(参考訳): GRADEO:マルチステップ推論によるテキスト・ビデオ生成のためのヒューマンライクな評価を目指して
- Authors: Zhun Mou, Bin Xia, Zhengchao Huang, Wenming Yang, Jiaya Jia,
- Abstract要約: GRADEOは、最初に設計されたビデオ評価モデルの1つである。
説明可能なスコアと評価のためにAIが生成したビデオを、多段階の推論によって評価する。
実験の結果,本手法は既存手法よりも人的評価に適合していることがわかった。
- 参考スコア(独自算出の注目度): 62.775721264492994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent great advances in video generation models have demonstrated their potential to produce high-quality videos, bringing challenges to effective evaluation. Unlike human evaluation, existing automated evaluation metrics lack high-level semantic understanding and reasoning capabilities for video, thus making them infeasible and unexplainable. To fill this gap, we curate GRADEO-Instruct, a multi-dimensional T2V evaluation instruction tuning dataset, including 3.3k videos from over 10 existing video generation models and multi-step reasoning assessments converted by 16k human annotations. We then introduce GRADEO, one of the first specifically designed video evaluation models, which grades AI-generated videos for explainable scores and assessments through multi-step reasoning. Experiments show that our method aligns better with human evaluations than existing methods. Furthermore, our benchmarking reveals that current video generation models struggle to produce content that aligns with human reasoning and complex real-world scenarios. The models, datasets, and codes will be released soon.
- Abstract(参考訳): ビデオ生成モデルにおける近年の大きな進歩は、高品質なビデオを作成する可能性を示し、効果的な評価に挑戦している。
人間の評価とは異なり、既存の自動評価メトリクスは、ビデオの高度な意味理解と推論能力が欠如しているため、それらが実現不可能で説明不可能である。
このギャップを埋めるために、既存の10以上のビデオ生成モデルから3.3kのビデオと16kの人間のアノテーションで変換された多段階の推論アセスメントを含む多次元T2V評価指導データセットGRADEO-Instructをキュレートする。
次に、GRADEOを紹介します。これは、AIが生成したビデオを、多段階の推論によって説明可能なスコアと評価のために評価する、最初に設計されたビデオ評価モデルの1つです。
実験の結果,本手法は既存手法よりも人的評価に適合していることがわかった。
さらに、我々のベンチマークでは、現在のビデオ生成モデルは、人間の推論や複雑な現実世界のシナリオに沿ったコンテンツを生成するのに苦労していることが明らかになっている。
モデル、データセット、コードはまもなくリリースされる。
関連論文リスト
- Impossible Videos [21.16715759223276]
IPV-Benchは、ビデオ理解と生成の進歩を評価するために設計されたベンチマークである。
物理的、生物学的、地理的、社会的な法則に反する多様な場面が特徴である。
不可能なビデオを理解する能力に基づいて、ビデオLLMを評価するためのベンチマークが作成されている。
論文 参考訳(メタデータ) (2025-03-18T16:10:24Z) - VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation [66.58048825989239]
VideoPhy-2は、生成されたビデオの物理的常識を評価するアクション中心のデータセットである。
我々は、生成したビデオのセマンティック・アテンデンス、物理コモンセンス、および物理ルールのグラウンド化を評価する人間の評価を行う。
結果より,最高のモデルでも22%のジョイントパフォーマンスを達成できたことが示唆された。
論文 参考訳(メタデータ) (2025-03-09T22:49:12Z) - What Are You Doing? A Closer Look at Controllable Human Video Generation [73.89117620413724]
What Are You Doing?」は、人間の制御可能な画像とビデオの生成を評価するための新しいベンチマークである。
このビデオは、1,544本のキャプション付きビデオで構成されており、56の細かなカテゴリーで細かな収集と注釈付けがなされている。
制御可能な画像・映像生成における7つの最先端モデルの詳細な解析を行う。
論文 参考訳(メタデータ) (2025-03-06T17:59:29Z) - VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models [111.5892290894904]
VBenchは、"ビデオ生成品質"を特定の、階層的、そして非絡み合ったディメンションに分解するベンチマークスイートである。
我々は、人間の知覚とベンチマークの整合性を検証するために、人間の嗜好アノテーションのデータセットを提供する。
VBench++は、テキスト・トゥ・ビデオと画像・トゥ・ビデオの評価をサポートする。
論文 参考訳(メタデータ) (2024-11-20T17:54:41Z) - VBench: Comprehensive Benchmark Suite for Video Generative Models [100.43756570261384]
VBenchは、"ビデオ生成品質"を特定の、階層的、そして非絡み合ったディメンションに分解するベンチマークスイートである。
我々は、人間の知覚とベンチマークの整合性を検証するために、人間の嗜好アノテーションのデータセットを提供する。
VBenchは、すべてのプロンプト、評価方法、生成されたビデオ、人間の好みのアノテーションを含むオープンソースとして公開します。
論文 参考訳(メタデータ) (2023-11-29T18:39:01Z) - EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。
そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。