論文の概要: Comprehensive Subjective and Objective Evaluation Method for Text-generated Video
- arxiv url: http://arxiv.org/abs/2501.08545v2
- Date: Fri, 31 Jan 2025 09:39:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 13:58:56.873754
- Title: Comprehensive Subjective and Objective Evaluation Method for Text-generated Video
- Title(参考訳): テキスト生成ビデオの包括的主観的・客観的評価法
- Authors: Zelu Qi, Ping Shi, Shuqi Wang, Zhaoyang Zhang, Zefeng Ying, Da Pan,
- Abstract要約: 我々は,textbfTextで生成されたtextbfVideo textbfevaluation, textbfT2VEval-Bench のベンチマークデータセットを構築した。
主観評価では, 全体的な印象, 映像品質, 審美的品質, 現実性, テキスト・ビデオの一貫性の5つの重要なスコアを収集した。
客観的評価のために, 品質, 信頼性, 一貫性の3分野にわたるビデオの評価を行うtextbfT2VEval モデルを開発した。
- 参考スコア(独自算出の注目度): 9.653720520867218
- License:
- Abstract: Recent text-to-video (T2V) technology advancements, as demonstrated by models such as Gen3, Pika, and Sora, have significantly broadened its applicability and popularity. This progress has created a growing demand for accurate quality assessment metrics to evaluate the perceptual quality of text-generated videos and optimize video generation models. However, assessing the quality of text-generated videos remains challenging due to the presence of highly complex distortions, such as unnatural actions and phenomena that defy human cognition. To address these challenges, we constructed a large-scale benchmark dataset for \textbf{T}ext-generated \textbf{V}ideo \textbf{eval}uation, \textbf{T2VEval-Bench}, comprising 148 textual words and 1,783 videos generated by 12 models. During the subjective evaluation, we collected five key scores: overall impression, video quality, aesthetic quality, realness, and text-video consistency. For objective evaluation, we developed the \textbf{T2VEval} model, which assesses videos across three branches: quality, authenticity, and consistency. Using an attention-based fusion module, T2VEval effectively integrates features from each branch and predicts scores with the aid of a large oracle model. Additionally, we implemented a progressive training strategy, enabling each branch to learn targeted knowledge while maintaining synergy with the others. Experimental results demonstrate that T2VEval achieves state-of-the-art performance across multiple metrics. The dataset and code will be open-sourced upon completion of the follow-up work.
- Abstract(参考訳): 最近のテキスト・ツー・ビデオ(T2V)技術の発展は、Gen3、Pika、Soraといったモデルによって示され、適用性と人気を著しく拡大している。
この進歩は、テキスト生成ビデオの知覚的品質を評価し、ビデオ生成モデルを最適化するために、正確な品質評価指標の需要を増大させてきた。
しかし、不自然な行動や人間の認知を損なう現象など、非常に複雑な歪みが存在するため、テキスト生成ビデオの品質を評価することは依然として困難である。
これらの課題に対処するため、我々は、12モデルで生成された1,783個のテキストワードと1,783個のビデオからなる、大規模なベンチマークデータセットを構築した。
主観評価では, 全体的な印象, 映像品質, 審美的品質, 現実性, テキスト・ビデオの一貫性の5つの重要なスコアを収集した。
客観的評価のために, 品質, 信頼性, 一貫性の3分野にまたがる映像を評価できる textbf{T2VEval} モデルを開発した。
注意ベースの融合モジュールを使用することで、T2VEvalは各ブランチの機能を効果的に統合し、大きなオラクルモデルの助けを借りてスコアを予測する。
さらに私たちは,各ブランチが他ブランチとの相乗効果を維持しながら,目標とする知識を学習できるようにする,プログレッシブトレーニング戦略を実装した。
実験により、T2VEvalは複数のメトリクスで最先端のパフォーマンスを実現することが示された。
データセットとコードは、フォローアップ作業が完了するとオープンソース化される。
関連論文リスト
- VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models [111.5892290894904]
VBenchは、"ビデオ生成品質"を特定の、階層的、そして非絡み合ったディメンションに分解するベンチマークスイートである。
我々は、人間の知覚とベンチマークの整合性を検証するために、人間の嗜好アノテーションのデータセットを提供する。
VBench++は、テキスト・トゥ・ビデオと画像・トゥ・ビデオの評価をサポートする。
論文 参考訳(メタデータ) (2024-11-20T17:54:41Z) - Evaluation of Text-to-Video Generation Models: A Dynamics Perspective [94.2662603491163]
既存の評価プロトコルは主に時間的一貫性とコンテンツの連続性に焦点を当てている。
本稿では,T2Vモデルを評価するための動的次元に着目した効果的な評価プロトコルDEVILを提案する。
論文 参考訳(メタデータ) (2024-07-01T08:51:22Z) - Subjective-Aligned Dataset and Metric for Text-to-Video Quality Assessment [54.00254267259069]
現在までに最大規模のテキスト・ビデオ品質評価データベース(T2VQA-DB)を構築している。
データセットは、9つの異なるT2Vモデルによって生成される1万のビデオで構成されている。
主観的テキスト・ビデオ品質評価(T2VQA)のためのトランスフォーマーに基づく新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-03-18T16:52:49Z) - Towards A Better Metric for Text-to-Video Generation [102.16250512265995]
生成モデルは高品質のテキスト、画像、ビデオの合成において顕著な能力を示した。
新たな評価パイプラインであるText-to-Video Score(T2VScore)を導入する。
本尺度は,(1)テキスト記述における映像の忠実度を精査するテキスト・ビデオ・アライメント,(2)ビデオ品質,(2)ビデオ全体の製作口径を専門家の混合で評価するビデオ品質の2つの重要な基準を統合した。
論文 参考訳(メタデータ) (2024-01-15T15:42:39Z) - AIGCBench: Comprehensive Evaluation of Image-to-Video Content Generated
by AI [1.1035305628305816]
本稿では,様々なビデオ生成タスクを評価するために設計された,先駆的な総合ベンチマークであるAIGCBenchを紹介する。
等価条件下で異なる最先端アルゴリズムを評価する、多様なオープンドメインの画像テキストデータセット。
我々は、リッチテキストプロンプトを作成するために、新しいテキストコンバインダーとGPT-4を使用し、高度なテキスト・ツー・イメージモデルを用いて画像を生成する。
論文 参考訳(メタデータ) (2024-01-03T10:08:40Z) - CelebV-Text: A Large-Scale Facial Text-Video Dataset [91.22496444328151]
CelebV-Textは、顔テキストとビデオのペアの大規模で多様で高品質なデータセットである。
CelebV-Textは、7万本の顔ビデオクリップと多様なビジュアルコンテンツで構成され、それぞれに半自動テキスト生成戦略を用いて生成された20のテキストをペアリングする。
他のデータセットよりもCelebV-Textの方が優れていることは、ビデオ、テキスト、およびテキスト-ビデオ関連性の包括的な統計分析によって示される。
論文 参考訳(メタデータ) (2023-03-26T13:06:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。