Fugu-MT 論文翻訳(概要): FETV: A Benchmark for Fine-Grained Evaluation of Open-Domain Text-to-Video Generation

論文の概要: FETV: A Benchmark for Fine-Grained Evaluation of Open-Domain Text-to-Video Generation

arxiv url: http://arxiv.org/abs/2311.01813v1
Date: Fri, 3 Nov 2023 09:46:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-06 14:35:11.113899
Title: FETV: A Benchmark for Fine-Grained Evaluation of Open-Domain Text-to-Video Generation
Title（参考訳）: FETV:オープンドメインテキスト・ビデオ・ジェネレーションの微粒化評価ベンチマーク
Authors: Yuanxin Liu, Lei Li, Shuhuai Ren, Rundong Gao, Shicheng Li, Sishuo Chen, Xu Sun, Lu Hou
Abstract要約: オープンドメインのテキスト・トゥ・ビデオ(T2V)生成モデルは目覚ましい進歩を遂げた。既存の研究では、テキストプロンプトの異なるカテゴリにおけるT2Vモデルのきめ細かい評価が欠けている。自動評価基準が人間の基準と一致しているかどうかは不明である。
参考スコア（独自算出の注目度）: 27.620973815397296
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently, open-domain text-to-video (T2V) generation models have made remarkable progress. However, the promising results are mainly shown by the qualitative cases of generated videos, while the quantitative evaluation of T2V models still faces two critical problems. Firstly, existing studies lack fine-grained evaluation of T2V models on different categories of text prompts. Although some benchmarks have categorized the prompts, their categorization either only focuses on a single aspect or fails to consider the temporal information in video generation. Secondly, it is unclear whether the automatic evaluation metrics are consistent with human standards. To address these problems, we propose FETV, a benchmark for Fine-grained Evaluation of Text-to-Video generation. FETV is multi-aspect, categorizing the prompts based on three orthogonal aspects: the major content, the attributes to control and the prompt complexity. FETV is also temporal-aware, which introduces several temporal categories tailored for video generation. Based on FETV, we conduct comprehensive manual evaluations of four representative T2V models, revealing their pros and cons on different categories of prompts from different aspects. We also extend FETV as a testbed to evaluate the reliability of automatic T2V metrics. The multi-aspect categorization of FETV enables fine-grained analysis of the metrics' reliability in different scenarios. We find that existing automatic metrics (e.g., CLIPScore and FVD) correlate poorly with human evaluation. To address this problem, we explore several solutions to improve CLIPScore and FVD, and develop two automatic metrics that exhibit significant higher correlation with humans than existing metrics. Benchmark page: https://github.com/llyx97/FETV.
Abstract（参考訳）: 近年,open-domain text-to-video (t2v) 世代モデルが目覚ましい進歩を遂げている。しかし, 有望な結果は生成したビデオの定性的なケースで主に示され, T2Vモデルの定量的評価は2つの重大な問題に直面している。まず、既存の研究はテキストプロンプトの異なるカテゴリにおけるT2Vモデルのきめ細かい評価を欠いている。一部のベンチマークはプロンプトを分類しているが、その分類は単一のアスペクトのみに焦点を当てるか、ビデオ生成における時間的情報を考慮しないかのどちらかである。第二に、自動評価指標が人間の基準と一致しているかは不明である。これらの問題に対処するために,テキスト・ビデオ生成のきめ細かい評価のためのベンチマークであるFETVを提案する。 FETVはマルチアスペクトであり、主要なコンテンツ、制御する属性、迅速な複雑さの3つの直交的な側面に基づいてプロンプトを分類する。 FETVはまた、ビデオ生成に適したいくつかの時間カテゴリーを導入している。 FETVに基づいて、4つの代表的T2Vモデルの総合的手動評価を行い、異なる側面から異なるカテゴリのプロンプトの長所と短所を明らかにする。また,テストベッドとしてFETVを拡張し,自動T2V測定の信頼性を評価する。 FETVのマルチアスペクト分類は、異なるシナリオにおけるメトリクスの信頼性のきめ細かい分析を可能にする。既存の自動メトリクス(例えば、CLIPScoreとFVD)は、人間の評価と相関が低い。この問題に対処するために、CLIPScoreとFVDを改善するためのいくつかのソリューションを検討し、既存のメトリクスよりも人間との大きな相関を示す2つの自動メトリクスを開発した。ベンチマークページ: https://github.com/llyx97/FETV。

関連論文リスト

HV-MMBench: Benchmarking MLLMs for Human-Centric Video Understanding [79.06209664703258]
MLLM(Multimodal Large Language Models)は、画像とビデオの両方を含む視覚的理解タスクにおいて、大きな進歩を見せている。既存の人間中心のベンチマークは、主にビデオ生成の品質と行動認識を強調し、人間中心のシナリオに必要な知覚と認知の能力を見落としている。我々は,人間中心のビデオ理解におけるMLLMのより総合的な評価を提供するために,厳格にキュレートされたベンチマークを提案する。
論文参考訳（メタデータ） (2025-07-07T11:52:24Z)
T2VEval: Benchmark Dataset and Objective Evaluation Method for T2V-generated Videos [9.742383920787413]
T2VEvalはテキスト・ビデオ品質評価のためのマルチブランチ融合方式である。テキストとビデオの一貫性、現実性、技術的品質の3つの分野にまたがるビデオを評価する。 T2VEvalは、複数のメトリクスにわたる最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-01-15T03:11:33Z)
VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models [111.5892290894904]
VBenchは、"ビデオ生成品質"を特定の、階層的、そして非絡み合ったディメンションに分解するベンチマークスイートである。我々は、人間の知覚とベンチマークの整合性を検証するために、人間の嗜好アノテーションのデータセットを提供する。 VBench++は、テキスト・トゥ・ビデオと画像・トゥ・ビデオの評価をサポートする。
論文参考訳（メタデータ） (2024-11-20T17:54:41Z)
Beyond Coarse-Grained Matching in Video-Text Retrieval [50.799697216533914]
きめ細かい評価のための新しいアプローチを導入する。テストキャプションを自動的に生成することで,既存のデータセットにアプローチを適用することができる。きめ細かい評価実験は、このアプローチがきめ細かな違いを理解するモデルの能力を高めることを実証している。
論文参考訳（メタデータ） (2024-10-16T09:42:29Z)
VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。 VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文参考訳（メタデータ） (2024-10-09T17:46:34Z)
ChronoMagic-Bench: A Benchmark for Metamorphic Evaluation of Text-to-Time-lapse Video Generation [57.651809298512276]
ChronoMagic-Benchは、テキスト・トゥ・ビデオ(T2V)生成ベンチマークである。モデルがメタモルフィックな振幅と時間的コヒーレンスを持つタイムラプスビデオを生成する能力に焦点を当てている。 10種類の代表的なT2Vモデルの手動評価を行い、その強度と弱点を明らかにした。大規模なChronoMagic-Proデータセットを作成し、460kの高品質な720pタイムラプスビデオを含む。
論文参考訳（メタデータ） (2024-06-26T17:50:47Z)
Subjective-Aligned Dataset and Metric for Text-to-Video Quality Assessment [54.00254267259069]
現在までに最大規模のテキスト・ビデオ品質評価データベース(T2VQA-DB)を構築している。データセットは、9つの異なるT2Vモデルによって生成される1万のビデオで構成されている。主観的テキスト・ビデオ品質評価(T2VQA)のためのトランスフォーマーに基づく新しいモデルを提案する。
論文参考訳（メタデータ） (2024-03-18T16:52:49Z)
STREAM: Spatio-TempoRal Evaluation and Analysis Metric for Video Generative Models [6.855409699832414]
ビデオ生成モデルは、短いビデオクリップを生成するのに苦労する。現在のビデオ評価メトリクスは、埋め込みをビデオ埋め込みネットワークに切り替えることによって、画像メトリクスの単純な適応である。本稿では,空間的側面と時間的側面を独立に評価するために一意に設計された新しいビデオ評価指標STREAMを提案する。
論文参考訳（メタデータ） (2024-01-30T08:18:20Z)
Towards A Better Metric for Text-to-Video Generation [102.16250512265995]
生成モデルは高品質のテキスト、画像、ビデオの合成において顕著な能力を示した。新たな評価パイプラインであるText-to-Video Score(T2VScore)を導入する。本尺度は,(1)テキスト記述における映像の忠実度を精査するテキスト・ビデオ・アライメント,(2)ビデオ品質,(2)ビデオ全体の製作口径を専門家の混合で評価するビデオ品質の2つの重要な基準を統合した。
論文参考訳（メタデータ） (2024-01-15T15:42:39Z)
Measuring the Quality of Text-to-Video Model Outputs: Metrics and Dataset [1.9685736810241874]
本稿は,最近使用されている5つのT2Vモデルから,1,000以上の生成されたビデオのデータセットを提示する。また、ビデオ上での人間の品質評価も含むので、人間の評価を含むメトリクスの相対的な強みと弱みを比較することができます。我々の結論は、T2V出力を生成するために使用するテキストプロンプトと自然性および意味マッチングが重要であるが、T2Vモデル出力を評価する際にこれらの微妙さを捉えるための単一の手段はないということである。
論文参考訳（メタデータ） (2023-09-14T19:35:53Z)
Capturing Co-existing Distortions in User-Generated Content for No-reference Video Quality Assessment [9.883856205077022]
ビデオ品質アセスメント(VQA)は、ビデオの知覚品質を予測することを目的としている。 VQAはユーザ生成コンテンツ(UGC)ビデオで未解決の2つの過小評価課題に直面している。品質関連スパース特徴をより効率的に抽出するためのtextitVisual Quality Transformer (VQT) を提案する。
論文参考訳（メタデータ） (2023-07-31T16:29:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。