論文の概要: Subjective-Aligned Dateset and Metric for Text-to-Video Quality Assessment
- arxiv url: http://arxiv.org/abs/2403.11956v2
- Date: Tue, 19 Mar 2024 14:03:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 19:30:44.357864
- Title: Subjective-Aligned Dateset and Metric for Text-to-Video Quality Assessment
- Title(参考訳): テキスト・ビデオ品質評価のための主観的アライメントされた日付と基準
- Authors: Tengchuan Kou, Xiaohong Liu, Zicheng Zhang, Chunyi Li, Haoning Wu, Xiongkuo Min, Guangtao Zhai, Ning Liu,
- Abstract要約: 現在までに最大規模のテキスト・ビデオ品質評価データベース(T2VQA-DB)を構築している。
データセットは、9つの異なるT2Vモデルによって生成される1万のビデオで構成されている。
主観的テキスト・ビデオ品質評価(T2VQA)のためのトランスフォーマーに基づく新しいモデルを提案する。
- 参考スコア(独自算出の注目度): 54.00254267259069
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid development of generative models, Artificial Intelligence-Generated Contents (AIGC) have exponentially increased in daily lives. Among them, Text-to-Video (T2V) generation has received widespread attention. Though many T2V models have been released for generating high perceptual quality videos, there is still lack of a method to evaluate the quality of these videos quantitatively. To solve this issue, we establish the largest-scale Text-to-Video Quality Assessment DataBase (T2VQA-DB) to date. The dataset is composed of 10,000 videos generated by 9 different T2V models. We also conduct a subjective study to obtain each video's corresponding mean opinion score. Based on T2VQA-DB, we propose a novel transformer-based model for subjective-aligned Text-to-Video Quality Assessment (T2VQA). The model extracts features from text-video alignment and video fidelity perspectives, then it leverages the ability of a large language model to give the prediction score. Experimental results show that T2VQA outperforms existing T2V metrics and SOTA video quality assessment models. Quantitative analysis indicates that T2VQA is capable of giving subjective-align predictions, validating its effectiveness. The dataset and code will be released at https://github.com/QMME/T2VQA.
- Abstract(参考訳): 生成モデルの急速な発展に伴い、AIGC(Artificial Intelligence-Generated Contents)は、日常生活において指数関数的に増加している。
このうち、テキスト・トゥ・ビデオ(T2V)世代は広く注目を集めている。
高い知覚品質のビデオを生成するための多くのT2Vモデルがリリースされているが、これらのビデオの品質を定量的に評価する方法がまだ存在しない。
この問題を解決するため,これまでで最大規模のテキスト・ビデオ品質評価データベース(T2VQA-DB)を構築した。
データセットは、9つの異なるT2Vモデルによって生成される1万のビデオで構成されている。
また、各ビデオの対応する平均意見スコアを得るための主観的研究を行う。
本稿では,T2VQA-DBに基づくテキスト・ツー・ビデオ品質評価(T2VQA)のためのトランスフォーマーモデルを提案する。
このモデルはテキスト・ビデオのアライメントとビデオの忠実度の観点から特徴を抽出し,大言語モデルの能力を活用して予測スコアを与える。
実験の結果,T2VQAは既存のT2VメトリクスとSOTAビデオ品質評価モデルより優れていた。
定量的分析により、T2VQAは主観的適応予測を行い、その効果を検証できることが示された。
データセットとコードはhttps://github.com/QMME/T2VQAで公開される。
関連論文リスト
- ViBe: A Text-to-Video Benchmark for Evaluating Hallucination in Large Multimodal Models [13.04745908368858]
本稿では,T2Vモデルによる幻覚映像の大規模テキスト・ビデオベンチマークであるViBeを紹介する。
10個のオープンソースT2Vモデルを用いて,幻覚映像の大規模データセットを開発した。
このベンチマークは、入力プロンプトとより正確に一致したビデオを生成する堅牢なT2Vモデルの開発を促進することを目的としている。
論文 参考訳(メタデータ) (2024-11-16T19:23:12Z) - Benchmarking AIGC Video Quality Assessment: A Dataset and Unified Model [54.69882562863726]
主観的および客観的品質評価の観点からAIGC-VQA問題を体系的に検討する。
我々は,空間的品質,時間的品質,テキスト・ツー・ビデオアライメントの3次元から,AIGCビデオの知覚品質を評価する。
本稿では,AIGCビデオの品質を包括的かつ正確に評価するUnify Generated Video Quality Assessment (UGVQ)モデルを提案する。
論文 参考訳(メタデータ) (2024-07-31T07:54:26Z) - OpenVid-1M: A Large-Scale High-Quality Dataset for Text-to-video Generation [33.62365864717086]
本稿では,表現的キャプションを備えた高精度な高品質データセットOpenVid-1Mを紹介する。
また、OpenVid-1Mから433K 1080pのビデオをキュレートしてOpenVidHD-0.4Mを作成し、高精細ビデオ生成を推進した。
論文 参考訳(メタデータ) (2024-07-02T15:40:29Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - Towards A Better Metric for Text-to-Video Generation [102.16250512265995]
生成モデルは高品質のテキスト、画像、ビデオの合成において顕著な能力を示した。
新たな評価パイプラインであるText-to-Video Score(T2VScore)を導入する。
本尺度は,(1)テキスト記述における映像の忠実度を精査するテキスト・ビデオ・アライメント,(2)ビデオ品質,(2)ビデオ全体の製作口径を専門家の混合で評価するビデオ品質の2つの重要な基準を統合した。
論文 参考訳(メタデータ) (2024-01-15T15:42:39Z) - Distilling Vision-Language Models on Millions of Videos [62.92789440875999]
合成した指導データを用いて,映像言語ベースラインから映像言語モデルを微調整する。
ビデオインストラクションチューニング(VIIT)によって生成されたビデオモデルは、高品質なキャプションを生成するために何百万ものビデオの自動ラベル付けに使用される。
副産物として、これまでで最大のビデオキャプションデータセットを生成します。
論文 参考訳(メタデータ) (2024-01-11T18:59:53Z) - Measuring the Quality of Text-to-Video Model Outputs: Metrics and
Dataset [1.9685736810241874]
本稿は,最近使用されている5つのT2Vモデルから,1,000以上の生成されたビデオのデータセットを提示する。
また、ビデオ上での人間の品質評価も含むので、人間の評価を含むメトリクスの相対的な強みと弱みを比較することができます。
我々の結論は、T2V出力を生成するために使用するテキストプロンプトと自然性および意味マッチングが重要であるが、T2Vモデル出力を評価する際にこれらの微妙さを捉えるための単一の手段はないということである。
論文 参考訳(メタデータ) (2023-09-14T19:35:53Z) - Make-A-Video: Text-to-Video Generation without Text-Video Data [69.20996352229422]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。
我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。
空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文 参考訳(メタデータ) (2022-09-29T13:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。