論文の概要: FETV: A Benchmark for Fine-Grained Evaluation of Open-Domain
Text-to-Video Generation
- arxiv url: http://arxiv.org/abs/2311.01813v2
- Date: Wed, 8 Nov 2023 11:53:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 18:35:36.009475
- Title: FETV: A Benchmark for Fine-Grained Evaluation of Open-Domain
Text-to-Video Generation
- Title(参考訳): FETV:オープンドメインテキスト・ビデオ・ジェネレーションの微粒化評価ベンチマーク
- Authors: Yuanxin Liu, Lei Li, Shuhuai Ren, Rundong Gao, Shicheng Li, Sishuo
Chen, Xu Sun, Lu Hou
- Abstract要約: オープンドメインのテキスト・トゥ・ビデオ(T2V)生成モデルは目覚ましい進歩を遂げた。
既存の研究では、テキストプロンプトの異なるカテゴリにおけるT2Vモデルのきめ細かい評価が欠けている。
自動評価基準が人間の基準と一致しているかどうかは不明である。
- 参考スコア(独自算出の注目度): 27.620973815397296
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, open-domain text-to-video (T2V) generation models have made
remarkable progress. However, the promising results are mainly shown by the
qualitative cases of generated videos, while the quantitative evaluation of T2V
models still faces two critical problems. Firstly, existing studies lack
fine-grained evaluation of T2V models on different categories of text prompts.
Although some benchmarks have categorized the prompts, their categorization
either only focuses on a single aspect or fails to consider the temporal
information in video generation. Secondly, it is unclear whether the automatic
evaluation metrics are consistent with human standards. To address these
problems, we propose FETV, a benchmark for Fine-grained Evaluation of
Text-to-Video generation. FETV is multi-aspect, categorizing the prompts based
on three orthogonal aspects: the major content, the attributes to control and
the prompt complexity. FETV is also temporal-aware, which introduces several
temporal categories tailored for video generation. Based on FETV, we conduct
comprehensive manual evaluations of four representative T2V models, revealing
their pros and cons on different categories of prompts from different aspects.
We also extend FETV as a testbed to evaluate the reliability of automatic T2V
metrics. The multi-aspect categorization of FETV enables fine-grained analysis
of the metrics' reliability in different scenarios. We find that existing
automatic metrics (e.g., CLIPScore and FVD) correlate poorly with human
evaluation. To address this problem, we explore several solutions to improve
CLIPScore and FVD, and develop two automatic metrics that exhibit significant
higher correlation with humans than existing metrics. Benchmark page:
https://github.com/llyx97/FETV.
- Abstract(参考訳): 近年,open-domain text-to-video (t2v) 世代モデルが目覚ましい進歩を遂げている。
しかし, 有望な結果は生成したビデオの定性的なケースで主に示され, T2Vモデルの定量的評価は2つの重大な問題に直面している。
まず、既存の研究はテキストプロンプトの異なるカテゴリにおけるT2Vモデルのきめ細かい評価を欠いている。
一部のベンチマークはプロンプトを分類しているが、その分類は単一のアスペクトのみに焦点を当てるか、ビデオ生成における時間的情報を考慮しないかのどちらかである。
第二に、自動評価指標が人間の基準と一致しているかは不明である。
これらの問題に対処するために,テキスト・ビデオ生成のきめ細かい評価のためのベンチマークであるFETVを提案する。
FETVはマルチアスペクトであり、主要なコンテンツ、制御する属性、迅速な複雑さの3つの直交的な側面に基づいてプロンプトを分類する。
FETVはまた、ビデオ生成に適したいくつかの時間カテゴリーを導入している。
FETVに基づいて、4つの代表的T2Vモデルの総合的手動評価を行い、異なる側面から異なるカテゴリのプロンプトの長所と短所を明らかにする。
また,テストベッドとしてFETVを拡張し,自動T2V測定の信頼性を評価する。
FETVのマルチアスペクト分類は、異なるシナリオにおけるメトリクスの信頼性のきめ細かい分析を可能にする。
既存の自動メトリクス(例えば、CLIPScoreとFVD)は、人間の評価と相関が低い。
この問題に対処するために、CLIPScoreとFVDを改善するためのいくつかのソリューションを検討し、既存のメトリクスよりも人間との大きな相関を示す2つの自動メトリクスを開発した。
ベンチマークページ: https://github.com/llyx97/FETV。
関連論文リスト
- Beyond Coarse-Grained Matching in Video-Text Retrieval [50.799697216533914]
きめ細かい評価のための新しいアプローチを導入する。
テストキャプションを自動的に生成することで,既存のデータセットにアプローチを適用することができる。
きめ細かい評価実験は、このアプローチがきめ細かな違いを理解するモデルの能力を高めることを実証している。
論文 参考訳(メタデータ) (2024-10-16T09:42:29Z) - TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。
ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。
GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - ChronoMagic-Bench: A Benchmark for Metamorphic Evaluation of Text-to-Time-lapse Video Generation [57.651809298512276]
ChronoMagic-Benchは、テキスト・トゥ・ビデオ(T2V)生成ベンチマークである。
モデルがメタモルフィックな振幅と時間的コヒーレンスを持つタイムラプスビデオを生成する能力に焦点を当てている。
10種類の代表的なT2Vモデルの手動評価を行い、その強度と弱点を明らかにした。
大規模なChronoMagic-Proデータセットを作成し、460kの高品質な720pタイムラプスビデオを含む。
論文 参考訳(メタデータ) (2024-06-26T17:50:47Z) - Subjective-Aligned Dataset and Metric for Text-to-Video Quality Assessment [54.00254267259069]
現在までに最大規模のテキスト・ビデオ品質評価データベース(T2VQA-DB)を構築している。
データセットは、9つの異なるT2Vモデルによって生成される1万のビデオで構成されている。
主観的テキスト・ビデオ品質評価(T2VQA)のためのトランスフォーマーに基づく新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-03-18T16:52:49Z) - STREAM: Spatio-TempoRal Evaluation and Analysis Metric for Video Generative Models [6.855409699832414]
ビデオ生成モデルは、短いビデオクリップを生成するのに苦労する。
現在のビデオ評価メトリクスは、埋め込みをビデオ埋め込みネットワークに切り替えることによって、画像メトリクスの単純な適応である。
本稿では,空間的側面と時間的側面を独立に評価するために一意に設計された新しいビデオ評価指標STREAMを提案する。
論文 参考訳(メタデータ) (2024-01-30T08:18:20Z) - Towards A Better Metric for Text-to-Video Generation [102.16250512265995]
生成モデルは高品質のテキスト、画像、ビデオの合成において顕著な能力を示した。
新たな評価パイプラインであるText-to-Video Score(T2VScore)を導入する。
本尺度は,(1)テキスト記述における映像の忠実度を精査するテキスト・ビデオ・アライメント,(2)ビデオ品質,(2)ビデオ全体の製作口径を専門家の混合で評価するビデオ品質の2つの重要な基準を統合した。
論文 参考訳(メタデータ) (2024-01-15T15:42:39Z) - Measuring the Quality of Text-to-Video Model Outputs: Metrics and
Dataset [1.9685736810241874]
本稿は,最近使用されている5つのT2Vモデルから,1,000以上の生成されたビデオのデータセットを提示する。
また、ビデオ上での人間の品質評価も含むので、人間の評価を含むメトリクスの相対的な強みと弱みを比較することができます。
我々の結論は、T2V出力を生成するために使用するテキストプロンプトと自然性および意味マッチングが重要であるが、T2Vモデル出力を評価する際にこれらの微妙さを捉えるための単一の手段はないということである。
論文 参考訳(メタデータ) (2023-09-14T19:35:53Z) - Capturing Co-existing Distortions in User-Generated Content for
No-reference Video Quality Assessment [9.883856205077022]
ビデオ品質アセスメント(VQA)は、ビデオの知覚品質を予測することを目的としている。
VQAはユーザ生成コンテンツ(UGC)ビデオで未解決の2つの過小評価課題に直面している。
品質関連スパース特徴をより効率的に抽出するためのtextitVisual Quality Transformer (VQT) を提案する。
論文 参考訳(メタデータ) (2023-07-31T16:29:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。