Fugu-MT 論文翻訳(概要): Evaluation of Text-to-Video Generation Models: A Dynamics Perspective

論文の概要: Evaluation of Text-to-Video Generation Models: A Dynamics Perspective

arxiv url: http://arxiv.org/abs/2407.01094v1
Date: Mon, 1 Jul 2024 08:51:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-03 22:19:31.924401
Title: Evaluation of Text-to-Video Generation Models: A Dynamics Perspective
Title（参考訳）: テキスト・ビデオ生成モデルの評価:ダイナミクスの視点から
Authors: Mingxiang Liao, Hannan Lu, Xinyu Zhang, Fang Wan, Tianyu Wang, Yuzhong Zhao, Wangmeng Zuo, Qixiang Ye, Jingdong Wang,
Abstract要約: 既存の評価プロトコルは主に時間的一貫性とコンテンツの連続性に焦点を当てている。本稿では,T2Vモデルを評価するための動的次元に着目した効果的な評価プロトコルDEVILを提案する。
参考スコア（独自算出の注目度）: 94.2662603491163
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Comprehensive and constructive evaluation protocols play an important role in the development of sophisticated text-to-video (T2V) generation models. Existing evaluation protocols primarily focus on temporal consistency and content continuity, yet largely ignore the dynamics of video content. Dynamics are an essential dimension for measuring the visual vividness and the honesty of video content to text prompts. In this study, we propose an effective evaluation protocol, termed DEVIL, which centers on the dynamics dimension to evaluate T2V models. For this purpose, we establish a new benchmark comprising text prompts that fully reflect multiple dynamics grades, and define a set of dynamics scores corresponding to various temporal granularities to comprehensively evaluate the dynamics of each generated video. Based on the new benchmark and the dynamics scores, we assess T2V models with the design of three metrics: dynamics range, dynamics controllability, and dynamics-based quality. Experiments show that DEVIL achieves a Pearson correlation exceeding 90% with human ratings, demonstrating its potential to advance T2V generation models. Code is available at https://github.com/MingXiangL/DEVIL.
Abstract（参考訳）: 包括的および構成的評価プロトコルは、洗練されたテキスト・ツー・ビデオ(T2V)生成モデルの開発において重要な役割を果たす。既存の評価プロトコルは主に時間的一貫性とコンテンツの連続性に重点を置いているが、ビデオコンテンツのダイナミクスは無視されている。ダイナミクスは、テキストプロンプトに対するビデオコンテンツの視覚的鮮明さと誠実さを測定するために不可欠な次元である。本研究では,T2Vモデルを評価するための動的次元に着目した効果的な評価プロトコルDEVILを提案する。そこで本研究では,複数のダイナミックスグレードを完全に反映したテキストプロンプトからなる新しいベンチマークを構築し,各ビデオのダイナミックスを包括的に評価するために,様々な時間的粒度に対応するダイナミックススコアのセットを定義する。新しいベンチマークとダイナミックススコアに基づいて、動的範囲、動的制御性、動的ベース品質の3つの指標を設計し、T2Vモデルを評価する。実験により、DEVILはPearson相関を90%以上の人間格付けで達成し、T2V生成モデルを進化させる可能性を示している。コードはhttps://github.com/MingXiangL/DEVILで入手できる。

関連論文リスト

TUNA: Comprehensive Fine-grained Temporal Understanding Evaluation on Dense Dynamic Videos [26.97196583891564]
本稿では,高密度ダイナミックビデオの微粒化理解のための時間指向ベンチマークTUNAを紹介する。我々のTUNAは様々なビデオシナリオとダイナミックスを備えており、解釈可能で堅牢な評価基準によって支援されている。この評価は、アクション記述の制限、多目的理解の不十分、カメラモーションに対する感度の低下など、ビデオの時間的理解における重要な課題を明らかにする。
論文参考訳（メタデータ） (2025-05-26T15:24:06Z)
Dynamic-I2V: Exploring Image-to-Video Generation Models via Multimodal LLM [34.23005193437701]
拡散トランスフォーマー(DiT)アーキテクチャの視覚的条件とテキスト的条件を協調的に符号化するために,MLLM(Multimodal Large Language Models)を統合する革新的なフレームワークであるDynamic-I2Vを提案する。画像とビデオの生成において、Dynamic-I2Vは最先端のパフォーマンスを実現しており、特に42.5%、7.9%、11.8%のダイナミックレンジ、制御性、品質が大幅に向上している。
論文参考訳（メタデータ） (2025-05-26T12:29:34Z)
T2VEval: Benchmark Dataset and Objective Evaluation Method for T2V-generated Videos [9.742383920787413]
T2VEvalはテキスト・ビデオ品質評価のためのマルチブランチ融合方式である。テキストとビデオの一貫性、現実性、技術的品質の3つの分野にまたがるビデオを評価する。 T2VEvalは、複数のメトリクスにわたる最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-01-15T03:11:33Z)
Improving Dynamic Object Interactions in Text-to-Video Generation with AI Feedback [130.090296560882]
テキスト・ビデオ・モデルにおけるオブジェクトの動的性を高めるためのフィードバックの利用について検討する。本手法は,動的インタラクションにおける映像品質の大幅な向上を駆動するバイナリAIフィードバックを用いて,多様な報酬を効果的に最適化できることを示す。
論文参考訳（メタデータ） (2024-12-03T17:44:23Z)
InTraGen: Trajectory-controlled Video Generation for Object Interactions [100.79494904451246]
InTraGenは、オブジェクトインタラクションシナリオのトラジェクトリベースの生成を改善するパイプラインである。その結果,視覚的忠実度と定量的性能の両面での改善が示された。
論文参考訳（メタデータ） (2024-11-25T14:27:50Z)
T2V-Turbo-v2: Enhancing Video Generation Model Post-Training through Data, Reward, and Conditional Guidance Design [79.7289790249621]
提案手法であるT2V-Turbo-v2は、様々な監視信号を統合することにより、大幅な進歩をもたらす。特定の学習目標に対するデータセットの調整の重要性を強調した。トレーニングデータセットから動作ガイダンスを抽出し,ODEソルバに組み込むことにより,このアプローチの可能性を示す。
論文参考訳（メタデータ） (2024-10-08T04:30:06Z)
T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation [55.57459883629706]
コンポジションテキスト・ビデオ生成に関する最初の体系的研究を行う。合成テキスト・ビデオ生成に適した最初のベンチマークであるT2V-CompBenchを提案する。
論文参考訳（メタデータ） (2024-07-19T17:58:36Z)
VideoTetris: Towards Compositional Text-to-Video Generation [45.395598467837374]
VideoTetrisは、合成T2V生成を可能にするフレームワークである。我々は, VideoTetrisがT2V生成において, 印象的な質的, 定量的な結果をもたらすことを示す。
論文参考訳（メタデータ） (2024-06-06T17:25:33Z)
Subjective-Aligned Dataset and Metric for Text-to-Video Quality Assessment [54.00254267259069]
現在までに最大規模のテキスト・ビデオ品質評価データベース(T2VQA-DB)を構築している。データセットは、9つの異なるT2Vモデルによって生成される1万のビデオで構成されている。主観的テキスト・ビデオ品質評価(T2VQA)のためのトランスフォーマーに基づく新しいモデルを提案する。
論文参考訳（メタデータ） (2024-03-18T16:52:49Z)
Dynamic Review-based Recommenders [1.5427245397603195]
我々は、レビュー生成の因果関係を尊重する評価予測を強化するために、レビューの既知の力を活用している。我々の表現は時間間隔で認識されるので、力学の連続した時間表現が得られる。
論文参考訳（メタデータ） (2021-10-27T20:17:47Z)
TCL: Transformer-based Dynamic Graph Modelling via Contrastive Learning [87.38675639186405]
我々は,動的に進化するグラフを連続的に扱う,TCLと呼ばれる新しいグラフニューラルネットワークアプローチを提案する。我々の知る限りでは、これは動的グラフ上の表現学習にコントラスト学習を適用する最初の試みである。
論文参考訳（メタデータ） (2021-05-17T15:33:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。