論文の概要: Comprehensive Subjective and Objective Evaluation Method for Text-generated Video
- arxiv url: http://arxiv.org/abs/2501.08545v1
- Date: Wed, 15 Jan 2025 03:11:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 15:52:31.218410
- Title: Comprehensive Subjective and Objective Evaluation Method for Text-generated Video
- Title(参考訳): テキスト生成ビデオの包括的主観的・客観的評価法
- Authors: Zelu Qi, Ping Shi, Shuqi Wang, Zhaoyang Zhang, Zefeng Ying, Da Pan,
- Abstract要約: 我々は,textbfTextで生成されたtextbfVideo textbfevaluation, textbfT2VEval-Bench のベンチマークデータセットを構築した。
主観評価では, 全体的な印象, 映像品質, 審美的品質, 現実性, テキスト・ビデオの一貫性の5つの重要なスコアを収集した。
客観的評価のために, 品質, 信頼性, 一貫性の3分野にわたるビデオの評価を行うtextbfT2VEval モデルを開発した。
- 参考スコア(独自算出の注目度): 9.653720520867218
- License:
- Abstract: Recent text-to-video (T2V) technology advancements, as demonstrated by models such as Gen3, Pika, and Sora, have significantly broadened its applicability and popularity. This progress has created a growing demand for accurate quality assessment metrics to evaluate the perceptual quality of text-generated videos and optimize video generation models. However, assessing the quality of text-generated videos remains challenging due to the presence of highly complex distortions, such as unnatural actions and phenomena that defy human cognition. To address these challenges, we constructed a large-scale benchmark dataset for \textbf{T}ext-generated \textbf{V}ideo \textbf{eval}uation, \textbf{T2VEval-Bench}, comprising 148 textual words and 1,783 videos generated by 12 models. During the subjective evaluation, we collected five key scores: overall impression, video quality, aesthetic quality, realness, and text-video consistency. For objective evaluation, we developed the \textbf{T2VEval} model, which assesses videos across three branches: quality, authenticity, and consistency. Using an attention-based fusion module, T2VEval effectively integrates features from each branch and predicts scores with the aid of a large oracle model. Additionally, we implemented a progressive training strategy, enabling each branch to learn targeted knowledge while maintaining synergy with the others. Experimental results demonstrate that T2VEval achieves state-of-the-art performance across multiple metrics. The dataset and code will be open-sourced upon completion of the follow-up work.
- Abstract(参考訳): 最近のテキスト・ツー・ビデオ(T2V)技術の発展は、Gen3、Pika、Soraといったモデルによって示され、適用性と人気を著しく拡大している。
この進歩は、テキスト生成ビデオの知覚的品質を評価し、ビデオ生成モデルを最適化するために、正確な品質評価指標の需要を増大させてきた。
しかし、不自然な行動や人間の認知を損なう現象など、非常に複雑な歪みが存在するため、テキスト生成ビデオの品質を評価することは依然として困難である。
これらの課題に対処するため、我々は、12モデルで生成された1,783個のテキストワードと1,783個のビデオからなる、大規模なベンチマークデータセットを構築した。
主観評価では, 全体的な印象, 映像品質, 審美的品質, 現実性, テキスト・ビデオの一貫性の5つの重要なスコアを収集した。
客観的評価のために, 品質, 信頼性, 一貫性の3分野にまたがる映像を評価できる textbf{T2VEval} モデルを開発した。
注意ベースの融合モジュールを使用することで、T2VEvalは各ブランチの機能を効果的に統合し、大きなオラクルモデルの助けを借りてスコアを予測する。
さらに私たちは,各ブランチが他ブランチとの相乗効果を維持しながら,目標とする知識を学習できるようにする,プログレッシブトレーニング戦略を実装した。
実験により、T2VEvalは複数のメトリクスで最先端のパフォーマンスを実現することが示された。
データセットとコードは、フォローアップ作業が完了するとオープンソース化される。
関連論文リスト
- Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model [133.01510927611452]
我々は、30Bationalパラメータと最大204フレームの動画を生成する機能を備えた、テキストからビデオまでの事前トレーニングモデルであるStep-Video-T2Vを提案する。
Vari Autoencoder (Vari Autoencoder, Video-VAE) はビデオ生成タスク用に設計されており、16x16空間圧縮比と8x時間圧縮比を達成している。
Step-Video-T2Vのパフォーマンスは、新しいビデオ生成ベンチマークであるStep-Video-T2V-Evalで評価され、最先端のテキスト・ビデオの品質を示している。
論文 参考訳(メタデータ) (2025-02-14T15:58:10Z) - T2V-Turbo-v2: Enhancing Video Generation Model Post-Training through Data, Reward, and Conditional Guidance Design [79.7289790249621]
提案手法であるT2V-Turbo-v2は、様々な監視信号を統合することにより、大幅な進歩をもたらす。
特定の学習目標に対するデータセットの調整の重要性を強調した。
トレーニングデータセットから動作ガイダンスを抽出し,ODEソルバに組み込むことにより,このアプローチの可能性を示す。
論文 参考訳(メタデータ) (2024-10-08T04:30:06Z) - T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation [55.57459883629706]
コンポジションテキスト・ビデオ生成に関する最初の体系的研究を行う。
合成テキスト・ビデオ生成に適した最初のベンチマークであるT2V-CompBenchを提案する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - Evaluation of Text-to-Video Generation Models: A Dynamics Perspective [94.2662603491163]
既存の評価プロトコルは主に時間的一貫性とコンテンツの連続性に焦点を当てている。
本稿では,T2Vモデルを評価するための動的次元に着目した効果的な評価プロトコルDEVILを提案する。
論文 参考訳(メタデータ) (2024-07-01T08:51:22Z) - Subjective-Aligned Dataset and Metric for Text-to-Video Quality Assessment [54.00254267259069]
現在までに最大規模のテキスト・ビデオ品質評価データベース(T2VQA-DB)を構築している。
データセットは、9つの異なるT2Vモデルによって生成される1万のビデオで構成されている。
主観的テキスト・ビデオ品質評価(T2VQA)のためのトランスフォーマーに基づく新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-03-18T16:52:49Z) - Towards A Better Metric for Text-to-Video Generation [102.16250512265995]
生成モデルは高品質のテキスト、画像、ビデオの合成において顕著な能力を示した。
新たな評価パイプラインであるText-to-Video Score(T2VScore)を導入する。
本尺度は,(1)テキスト記述における映像の忠実度を精査するテキスト・ビデオ・アライメント,(2)ビデオ品質,(2)ビデオ全体の製作口径を専門家の混合で評価するビデオ品質の2つの重要な基準を統合した。
論文 参考訳(メタデータ) (2024-01-15T15:42:39Z) - Measuring the Quality of Text-to-Video Model Outputs: Metrics and
Dataset [1.9685736810241874]
本稿は,最近使用されている5つのT2Vモデルから,1,000以上の生成されたビデオのデータセットを提示する。
また、ビデオ上での人間の品質評価も含むので、人間の評価を含むメトリクスの相対的な強みと弱みを比較することができます。
我々の結論は、T2V出力を生成するために使用するテキストプロンプトと自然性および意味マッチングが重要であるが、T2Vモデル出力を評価する際にこれらの微妙さを捉えるための単一の手段はないということである。
論文 参考訳(メタデータ) (2023-09-14T19:35:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。