論文の概要: Towards A Better Metric for Text-to-Video Generation
- arxiv url: http://arxiv.org/abs/2401.07781v1
- Date: Mon, 15 Jan 2024 15:42:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 16:34:53.361609
- Title: Towards A Better Metric for Text-to-Video Generation
- Title(参考訳): テキスト対ビデオ生成のためのより良い指標を目指して
- Authors: Jay Zhangjie Wu, Guian Fang, Haoning Wu, Xintao Wang, Yixiao Ge,
Xiaodong Cun, David Junhao Zhang, Jia-Wei Liu, Yuchao Gu, Rui Zhao, Weisi
Lin, Wynne Hsu, Ying Shan, Mike Zheng Shou
- Abstract要約: 生成モデルは高品質のテキスト、画像、ビデオの合成において顕著な能力を示した。
新たな評価パイプラインであるText-to-Video Score(T2VScore)を導入する。
本尺度は,(1)テキスト記述における映像の忠実度を精査するテキスト・ビデオ・アライメント,(2)ビデオ品質,(2)ビデオ全体の製作口径を専門家の混合で評価するビデオ品質の2つの重要な基準を統合した。
- 参考スコア(独自算出の注目度): 102.16250512265995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative models have demonstrated remarkable capability in synthesizing
high-quality text, images, and videos. For video generation, contemporary
text-to-video models exhibit impressive capabilities, crafting visually
stunning videos. Nonetheless, evaluating such videos poses significant
challenges. Current research predominantly employs automated metrics such as
FVD, IS, and CLIP Score. However, these metrics provide an incomplete analysis,
particularly in the temporal assessment of video content, thus rendering them
unreliable indicators of true video quality. Furthermore, while user studies
have the potential to reflect human perception accurately, they are hampered by
their time-intensive and laborious nature, with outcomes that are often tainted
by subjective bias. In this paper, we investigate the limitations inherent in
existing metrics and introduce a novel evaluation pipeline, the Text-to-Video
Score (T2VScore). This metric integrates two pivotal criteria: (1) Text-Video
Alignment, which scrutinizes the fidelity of the video in representing the
given text description, and (2) Video Quality, which evaluates the video's
overall production caliber with a mixture of experts. Moreover, to evaluate the
proposed metrics and facilitate future improvements on them, we present the
TVGE dataset, collecting human judgements of 2,543 text-to-video generated
videos on the two criteria. Experiments on the TVGE dataset demonstrate the
superiority of the proposed T2VScore on offering a better metric for
text-to-video generation.
- Abstract(参考訳): 生成モデルは高品質のテキスト、画像、ビデオの合成において顕著な能力を示した。
ビデオ生成では、現代のテキスト対ビデオモデルは印象的な機能を示し、視覚的に見事なビデオを制作する。
しかし、これらのビデオの評価には大きな課題がある。
現在の研究は主に、FVD、IS、CLIP Scoreといった自動メトリクスを使用している。
しかし、これらの指標は、特にビデオコンテンツの時間的評価において不完全な分析を提供し、真のビデオ品質の信頼性の低い指標を与える。
さらに、ユーザ研究は人間の知覚を正確に反映する可能性を秘めているが、それらは時間的かつ手間のかかる性質によって阻害され、結果はしばしば主観的バイアスによって影響される。
本稿では,既存のメトリクスに固有の制約を調査し,新しい評価パイプラインであるText-to-Video Score(T2VScore)を導入する。
本尺度は,(1)テキスト記述における映像の忠実度を精査するテキスト・ビデオ・アライメント,(2)ビデオ品質,(2)ビデオ全体の製作口径を専門家の混合で評価するビデオ品質の2つの重要な基準を統合する。
さらに,提案手法を評価し,今後の改良を図るために,2つの基準による2,543本のビデオの判定結果を集めたtvgeデータセットを提案する。
TVGEデータセットの実験では、提案されたT2VScoreが、テキスト・ビデオ生成のためのより良いメトリックを提供する上で、優位性を示している。
関連論文リスト
- Neuro-Symbolic Evaluation of Text-to-Video Models using Formalf Verification [5.468979600421325]
我々は,新しい合成ビデオ評価指標であるNeuS-Vを紹介する。
NeuS-Vは、ニューロシンボリック形式検証技術を用いて、テキストとビデオのアライメントを厳格に評価する。
既存の指標と比較すると,NeuS-Vは5倍以上の相関性を示すことがわかった。
論文 参考訳(メタデータ) (2024-11-22T23:59:12Z) - VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models [111.5892290894904]
VBenchは、"ビデオ生成品質"を特定の、階層的、そして非絡み合ったディメンションに分解するベンチマークスイートである。
我々は、人間の知覚とベンチマークの整合性を検証するために、人間の嗜好アノテーションのデータセットを提供する。
VBench++は、テキスト・トゥ・ビデオと画像・トゥ・ビデオの評価をサポートする。
論文 参考訳(メタデータ) (2024-11-20T17:54:41Z) - Benchmarking AIGC Video Quality Assessment: A Dataset and Unified Model [54.69882562863726]
主観的および客観的品質評価の観点からAIGC-VQA問題を体系的に検討する。
我々は,空間的品質,時間的品質,テキスト・ツー・ビデオアライメントの3次元から,AIGCビデオの知覚品質を評価する。
本稿では,AIGCビデオの品質を包括的かつ正確に評価するUnify Generated Video Quality Assessment (UGVQ)モデルを提案する。
論文 参考訳(メタデータ) (2024-07-31T07:54:26Z) - T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation [55.57459883629706]
コンポジションテキスト・ビデオ生成に関する最初の体系的研究を行う。
合成テキスト・ビデオ生成に適した最初のベンチマークであるT2V-CompBenchを提案する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - Subjective-Aligned Dataset and Metric for Text-to-Video Quality Assessment [54.00254267259069]
現在までに最大規模のテキスト・ビデオ品質評価データベース(T2VQA-DB)を構築している。
データセットは、9つの異なるT2Vモデルによって生成される1万のビデオで構成されている。
主観的テキスト・ビデオ品質評価(T2VQA)のためのトランスフォーマーに基づく新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-03-18T16:52:49Z) - EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。
そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z) - Measuring the Quality of Text-to-Video Model Outputs: Metrics and
Dataset [1.9685736810241874]
本稿は,最近使用されている5つのT2Vモデルから,1,000以上の生成されたビデオのデータセットを提示する。
また、ビデオ上での人間の品質評価も含むので、人間の評価を含むメトリクスの相対的な強みと弱みを比較することができます。
我々の結論は、T2V出力を生成するために使用するテキストプロンプトと自然性および意味マッチングが重要であるが、T2Vモデル出力を評価する際にこれらの微妙さを捉えるための単一の手段はないということである。
論文 参考訳(メタデータ) (2023-09-14T19:35:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。