論文の概要: T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation
- arxiv url: http://arxiv.org/abs/2407.14505v2
- Date: Wed, 15 Jan 2025 18:57:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 15:50:20.025849
- Title: T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation
- Title(参考訳): T2V-CompBench: 合成テキスト・ビデオ生成のための総合ベンチマーク
- Authors: Kaiyue Sun, Kaiyi Huang, Xian Liu, Yue Wu, Zihan Xu, Zhenguo Li, Xihui Liu,
- Abstract要約: コンポジションテキスト・ビデオ生成に関する最初の体系的研究を行う。
合成テキスト・ビデオ生成に適した最初のベンチマークであるT2V-CompBenchを提案する。
- 参考スコア(独自算出の注目度): 55.57459883629706
- License:
- Abstract: Text-to-video (T2V) generative models have advanced significantly, yet their ability to compose different objects, attributes, actions, and motions into a video remains unexplored. Previous text-to-video benchmarks also neglect this important ability for evaluation. In this work, we conduct the first systematic study on compositional text-to-video generation. We propose T2V-CompBench, the first benchmark tailored for compositional text-to-video generation. T2V-CompBench encompasses diverse aspects of compositionality, including consistent attribute binding, dynamic attribute binding, spatial relationships, motion binding, action binding, object interactions, and generative numeracy. We further carefully design evaluation metrics of multimodal large language model (MLLM)-based, detection-based, and tracking-based metrics, which can better reflect the compositional text-to-video generation quality of seven proposed categories with 1400 text prompts. The effectiveness of the proposed metrics is verified by correlation with human evaluations. We also benchmark various text-to-video generative models and conduct in-depth analysis across different models and various compositional categories. We find that compositional text-to-video generation is highly challenging for current models, and we hope our attempt could shed light on future research in this direction.
- Abstract(参考訳): テキスト・ツー・ビデオ(T2V)生成モデルは大幅に進歩しているが、異なるオブジェクト、属性、アクション、動きをビデオに生成する能力は未だ探索されていない。
これまでのテキストとビデオのベンチマークでも、この重要な評価能力は無視されている。
本研究では,コンポジションテキスト・ビデオ生成に関する最初の体系的研究を行う。
合成テキスト・ビデオ生成に適した最初のベンチマークであるT2V-CompBenchを提案する。
T2V-CompBenchは、一貫性のある属性バインディング、動的な属性バインディング、空間的関係、動作バインディング、アクションバインディング、オブジェクトインタラクション、生成数など、構成性のさまざまな側面を含んでいる。
さらに,マルチモーダル大言語モデル(MLLM)に基づく,検出に基づく,追跡に基づくメトリクスの評価指標を慎重に設計する。
提案手法の有効性は,人間の評価と相関して検証される。
また、様々なテキスト・ビデオ生成モデルのベンチマークを行い、異なるモデルと様々な構成カテゴリにわたる詳細な分析を行う。
コンポジション・テキスト・ビデオ・ジェネレーションは現在のモデルでは極めて困難であり,今後の研究に光を当てることが期待できる。
関連論文リスト
- NAVERO: Unlocking Fine-Grained Semantics for Video-Language Compositionality [52.08735848128973]
本研究では,映像言語モデル(VidL)のオブジェクト間の合成,属性,行動,それらの関係を理解する能力について検討する。
負のテキストを付加したビデオテキストデータを用いて合成理解を向上させるNAVEROと呼ばれるトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-08-18T15:27:06Z) - Evaluation of Text-to-Video Generation Models: A Dynamics Perspective [94.2662603491163]
既存の評価プロトコルは主に時間的一貫性とコンテンツの連続性に焦点を当てている。
本稿では,T2Vモデルを評価するための動的次元に着目した効果的な評価プロトコルDEVILを提案する。
論文 参考訳(メタデータ) (2024-07-01T08:51:22Z) - TC-Bench: Benchmarking Temporal Compositionality in Text-to-Video and Image-to-Video Generation [97.96178992465511]
生成したビデオは、新しい概念の出現と、時間経過とともに現実の動画のようにそれらの関係の遷移を取り入れるべきである、と我々は主張する。
ビデオ生成モデルの時間構成性を評価するため,細部まで作り上げたテキストプロンプトのベンチマークであるTC-Benchと,それに対応する地上の真理ビデオ,ロバストな評価指標を提案する。
論文 参考訳(メタデータ) (2024-06-12T21:41:32Z) - Towards A Better Metric for Text-to-Video Generation [102.16250512265995]
生成モデルは高品質のテキスト、画像、ビデオの合成において顕著な能力を示した。
新たな評価パイプラインであるText-to-Video Score(T2VScore)を導入する。
本尺度は,(1)テキスト記述における映像の忠実度を精査するテキスト・ビデオ・アライメント,(2)ビデオ品質,(2)ビデオ全体の製作口径を専門家の混合で評価するビデオ品質の2つの重要な基準を統合した。
論文 参考訳(メタデータ) (2024-01-15T15:42:39Z) - T2I-CompBench: A Comprehensive Benchmark for Open-world Compositional
Text-to-image Generation [62.71574695256264]
T2I-CompBenchは、オープンワールドのコンポジションテキスト・ツー・イメージ生成のための包括的なベンチマークである。
合成テキスト・画像生成の評価に特化して設計されたいくつかの評価指標を提案する。
本稿では,ジェネレーティブmOdelファインタニングとReward-driven Sample selection (GORS)を導入することで,合成テキスト・画像生成能力を向上する手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T17:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。