論文の概要: Evaluation of Text-to-Video Generation Models: A Dynamics Perspective
- arxiv url: http://arxiv.org/abs/2407.01094v1
- Date: Mon, 1 Jul 2024 08:51:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 22:19:31.924401
- Title: Evaluation of Text-to-Video Generation Models: A Dynamics Perspective
- Title(参考訳): テキスト・ビデオ生成モデルの評価:ダイナミクスの視点から
- Authors: Mingxiang Liao, Hannan Lu, Xinyu Zhang, Fang Wan, Tianyu Wang, Yuzhong Zhao, Wangmeng Zuo, Qixiang Ye, Jingdong Wang,
- Abstract要約: 既存の評価プロトコルは主に時間的一貫性とコンテンツの連続性に焦点を当てている。
本稿では,T2Vモデルを評価するための動的次元に着目した効果的な評価プロトコルDEVILを提案する。
- 参考スコア(独自算出の注目度): 94.2662603491163
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Comprehensive and constructive evaluation protocols play an important role in the development of sophisticated text-to-video (T2V) generation models. Existing evaluation protocols primarily focus on temporal consistency and content continuity, yet largely ignore the dynamics of video content. Dynamics are an essential dimension for measuring the visual vividness and the honesty of video content to text prompts. In this study, we propose an effective evaluation protocol, termed DEVIL, which centers on the dynamics dimension to evaluate T2V models. For this purpose, we establish a new benchmark comprising text prompts that fully reflect multiple dynamics grades, and define a set of dynamics scores corresponding to various temporal granularities to comprehensively evaluate the dynamics of each generated video. Based on the new benchmark and the dynamics scores, we assess T2V models with the design of three metrics: dynamics range, dynamics controllability, and dynamics-based quality. Experiments show that DEVIL achieves a Pearson correlation exceeding 90% with human ratings, demonstrating its potential to advance T2V generation models. Code is available at https://github.com/MingXiangL/DEVIL.
- Abstract(参考訳): 包括的および構成的評価プロトコルは、洗練されたテキスト・ツー・ビデオ(T2V)生成モデルの開発において重要な役割を果たす。
既存の評価プロトコルは主に時間的一貫性とコンテンツの連続性に重点を置いているが、ビデオコンテンツのダイナミクスは無視されている。
ダイナミクスは、テキストプロンプトに対するビデオコンテンツの視覚的鮮明さと誠実さを測定するために不可欠な次元である。
本研究では,T2Vモデルを評価するための動的次元に着目した効果的な評価プロトコルDEVILを提案する。
そこで本研究では,複数のダイナミックスグレードを完全に反映したテキストプロンプトからなる新しいベンチマークを構築し,各ビデオのダイナミックスを包括的に評価するために,様々な時間的粒度に対応するダイナミックススコアのセットを定義する。
新しいベンチマークとダイナミックススコアに基づいて、動的範囲、動的制御性、動的ベース品質の3つの指標を設計し、T2Vモデルを評価する。
実験により、DEVILはPearson相関を90%以上の人間格付けで達成し、T2V生成モデルを進化させる可能性を示している。
コードはhttps://github.com/MingXiangL/DEVILで入手できる。
関連論文リスト
- T2VEval: T2V-generated Videos Benchmark Dataset and Objective Evaluation Method [13.924105106722534]
T2VEvalはテキスト・ビデオ品質評価のためのマルチブランチ融合方式である。
テキストとビデオの一貫性、現実性、技術的品質の3つの分野にまたがるビデオを評価する。
T2VEvalは、複数のメトリクスにわたる最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-01-15T03:11:33Z) - Improving Dynamic Object Interactions in Text-to-Video Generation with AI Feedback [130.090296560882]
テキスト・ビデオ・モデルにおけるオブジェクトの動的性を高めるためのフィードバックの利用について検討する。
本手法は,動的インタラクションにおける映像品質の大幅な向上を駆動するバイナリAIフィードバックを用いて,多様な報酬を効果的に最適化できることを示す。
論文 参考訳(メタデータ) (2024-12-03T17:44:23Z) - T2V-Turbo-v2: Enhancing Video Generation Model Post-Training through Data, Reward, and Conditional Guidance Design [79.7289790249621]
提案手法であるT2V-Turbo-v2は、様々な監視信号を統合することにより、大幅な進歩をもたらす。
特定の学習目標に対するデータセットの調整の重要性を強調した。
トレーニングデータセットから動作ガイダンスを抽出し,ODEソルバに組み込むことにより,このアプローチの可能性を示す。
論文 参考訳(メタデータ) (2024-10-08T04:30:06Z) - T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation [55.57459883629706]
コンポジションテキスト・ビデオ生成に関する最初の体系的研究を行う。
合成テキスト・ビデオ生成に適した最初のベンチマークであるT2V-CompBenchを提案する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - Subjective-Aligned Dataset and Metric for Text-to-Video Quality Assessment [54.00254267259069]
現在までに最大規模のテキスト・ビデオ品質評価データベース(T2VQA-DB)を構築している。
データセットは、9つの異なるT2Vモデルによって生成される1万のビデオで構成されている。
主観的テキスト・ビデオ品質評価(T2VQA)のためのトランスフォーマーに基づく新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-03-18T16:52:49Z) - TCL: Transformer-based Dynamic Graph Modelling via Contrastive Learning [87.38675639186405]
我々は,動的に進化するグラフを連続的に扱う,TCLと呼ばれる新しいグラフニューラルネットワークアプローチを提案する。
我々の知る限りでは、これは動的グラフ上の表現学習にコントラスト学習を適用する最初の試みである。
論文 参考訳(メタデータ) (2021-05-17T15:33:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。