論文の概要: Benchmarking AIGC Video Quality Assessment: A Dataset and Unified Model
- arxiv url: http://arxiv.org/abs/2407.21408v1
- Date: Wed, 31 Jul 2024 07:54:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 18:32:01.708814
- Title: Benchmarking AIGC Video Quality Assessment: A Dataset and Unified Model
- Title(参考訳): AIGCビデオ品質評価のベンチマーク:データセットと統一モデル
- Authors: Zhichao Zhang, Xinyue Li, Wei Sun, Jun Jia, Xiongkuo Min, Zicheng Zhang, Chunyi Li, Zijian Chen, Puyi Wang, Zhongpeng Ji, Fengyu Sun, Shangling Jui, Guangtao Zhai,
- Abstract要約: 主観的および客観的品質評価の観点からAIGC-VQA問題を体系的に検討する。
我々は,空間的品質,時間的品質,テキスト・ツー・ビデオアライメントの3次元から,AIGCビデオの知覚品質を評価する。
本稿では,AIGCビデオの品質を包括的かつ正確に評価するUnify Generated Video Quality Assessment (UGVQ)モデルを提案する。
- 参考スコア(独自算出の注目度): 54.69882562863726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, artificial intelligence (AI) driven video generation has garnered significant attention due to advancements in stable diffusion and large language model techniques. Thus, there is a great demand for accurate video quality assessment (VQA) models to measure the perceptual quality of AI-generated content (AIGC) videos as well as optimize video generation techniques. However, assessing the quality of AIGC videos is quite challenging due to the highly complex distortions they exhibit (e.g., unnatural action, irrational objects, etc.). Therefore, in this paper, we try to systemically investigate the AIGC-VQA problem from both subjective and objective quality assessment perspectives. For the subjective perspective, we construct a Large-scale Generated Vdeo Quality assessment (LGVQ) dataset, consisting of 2,808 AIGC videos generated by 6 video generation models using 468 carefully selected text prompts. Unlike previous subjective VQA experiments, we evaluate the perceptual quality of AIGC videos from three dimensions: spatial quality, temporal quality, and text-to-video alignment, which hold utmost importance for current video generation techniques. For the objective perspective, we establish a benchmark for evaluating existing quality assessment metrics on the LGVQ dataset, which reveals that current metrics perform poorly on the LGVQ dataset. Thus, we propose a Unify Generated Video Quality assessment (UGVQ) model to comprehensively and accurately evaluate the quality of AIGC videos across three aspects using a unified model, which uses visual, textual and motion features of video and corresponding prompt, and integrates key features to enhance feature expression. We hope that our benchmark can promote the development of quality evaluation metrics for AIGC videos. The LGVQ dataset and the UGVQ metric will be publicly released.
- Abstract(参考訳): 近年、人工知能(AI)による映像生成は、安定した拡散と大規模言語モデル技術の進歩により、大きな注目を集めている。
したがって、AIGC(AIGC)ビデオの知覚品質を測定するとともに、映像生成技術を最適化するために、正確な映像品質評価(VQA)モデルが要求される。
しかし、AIGCビデオの品質を評価することは、それらが示す非常に複雑な歪み(例えば、不自然なアクション、不合理なオブジェクトなど)のために非常に難しい。
そこで本稿では,AIGC-VQA問題を主観的,客観的な品質評価の観点から体系的に検討する。
主観的には、468個の慎重に選択されたテキストプロンプトを用いて6つのビデオ生成モデルによって生成された2,808個のAIGCビデオからなる大規模Vdeo Quality Assessment (LGVQ)データセットを構築する。
従来の主観的VQA実験とは異なり, 空間的品質, 時間的品質, テキスト・ツー・ビデオアライメントの3次元からAIGC映像の知覚品質を評価する。
目的として、LGVQデータセット上で既存の品質評価指標を評価するためのベンチマークを構築し、現在の指標がLGVQデータセットで不十分であることを明らかにする。
そこで我々は,映像の視覚的,テキスト的,運動的特徴とそれに対応するプロンプトを用いた統合モデルを用いて,AIGCビデオの品質を包括的かつ正確に評価するUnify Generated Video Quality Assessment (UGVQ)モデルを提案し,特徴表現を強化するために重要な特徴を統合する。
われわれのベンチマークがAIGCビデオの品質評価指標の開発を促進することを願っている。
LGVQデータセットとUGVQメトリックが公開される。
関連論文リスト
- AIGV-Assessor: Benchmarking and Evaluating the Perceptual Quality of Text-to-Video Generation with LMM [54.44479359918971]
AIGVQA-DBは,1,048プロンプトを用いた15の高度なテキスト・ビデオ・モデルによって生成された36,576個のAIGVからなる大規模データセットである。
AIGV-Assessorは、複雑な品質特性を活用して、正確なビデオ品質スコアとペアビデオ嗜好をキャプチャする新しいVQAモデルである。
論文 参考訳(メタデータ) (2024-11-26T08:43:15Z) - VQA$^2$: Visual Question Answering for Video Quality Assessment [76.81110038738699]
ビデオ品質アセスメント(VQA)は、低レベルの視覚知覚において古典的な分野である。
画像領域における最近の研究は、視覚質問応答(VQA)が視覚的品質を著しく低レベルに評価できることを示した。
VQA2インストラクションデータセットは,ビデオ品質評価に焦点をあてた最初の視覚的質問応答インストラクションデータセットである。
VQA2シリーズは、ビデオにおける空間的時間的品質の詳細の知覚を高めるために、視覚的および運動的トークンをインターリーブする。
論文 参考訳(メタデータ) (2024-11-06T09:39:52Z) - Quality Prediction of AI Generated Images and Videos: Emerging Trends and Opportunities [32.03360188710995]
AIが生成し、拡張されたコンテンツは、視覚的に正確で、意図された使用に固執し、高い視覚的品質を維持する必要がある。
AI生成および強化されたコンテンツの視覚的“品質”を監視し制御するひとつの方法は、画像品質アセスメント(IQA)とビデオ品質アセスメント(VQA)モデルをデプロイすることである。
本稿では,AIが生成・拡張した画像・映像コンテンツによる現状の問題点と可能性について検討する。
論文 参考訳(メタデータ) (2024-10-11T05:08:44Z) - Advancing Video Quality Assessment for AIGC [17.23281750562252]
本稿では,平均絶対誤差とクロスエントロピー損失を組み合わせ,フレーム間品質の不整合を緩和する新たな損失関数を提案する。
また,モデルの一般化能力を高めるために,敵対的トレーニングを活用しながら,重要なコンテンツを維持するために革新的なS2CNet技術を導入する。
論文 参考訳(メタデータ) (2024-09-23T10:36:22Z) - Exploring AIGC Video Quality: A Focus on Visual Harmony, Video-Text Consistency and Domain Distribution Gap [4.922783970210658]
我々は,AIGC映像品質の評価を,視覚調和,映像テキストの整合性,領域分布ギャップの3次元に分類した。
各次元に対して、AIGCビデオの総合的な品質評価を提供するための特定のモジュールを設計する。
本研究は,異なるテキスト・ツー・ビデオ・モデルにより生成される映像の視覚的品質,流動性,スタイルの有意な変化を明らかにする。
論文 参考訳(メタデータ) (2024-04-21T08:27:20Z) - Subjective-Aligned Dataset and Metric for Text-to-Video Quality Assessment [54.00254267259069]
現在までに最大規模のテキスト・ビデオ品質評価データベース(T2VQA-DB)を構築している。
データセットは、9つの異なるT2Vモデルによって生成される1万のビデオで構成されている。
主観的テキスト・ビデオ品質評価(T2VQA)のためのトランスフォーマーに基づく新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-03-18T16:52:49Z) - Perceptual Video Quality Assessment: A Survey [63.61214597655413]
映像品質評価は,映像処理分野において重要な役割を担っている。
過去20年間に様々な主観的・客観的な映像品質評価研究が実施されてきた。
この調査は、これらのビデオ品質アセスメント研究の最新かつ包括的なレビューを提供する。
論文 参考訳(メタデータ) (2024-02-05T16:13:52Z) - UGC-VQA: Benchmarking Blind Video Quality Assessment for User Generated
Content [59.13821614689478]
コンテンツの品質劣化は予測不能で、複雑で、しばしば開始されるため、Wild動画のブラインド品質の予測は非常に難しい。
ここでは、主要なVQAモデルの包括的評価を行うことにより、この問題の進展に寄与する。
先行するVQAモデルの特徴の上に特徴選択戦略を適用することで,先行するモデルが使用する統計的特徴のうち60点を抽出することができる。
我々の実験結果から,VIDEVALは,他の先行モデルよりも計算コストがかなり低く,最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2020-05-29T00:39:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。