論文の概要: AIGV-Assessor: Benchmarking and Evaluating the Perceptual Quality of Text-to-Video Generation with LMM
- arxiv url: http://arxiv.org/abs/2411.17221v1
- Date: Tue, 26 Nov 2024 08:43:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:35:04.333042
- Title: AIGV-Assessor: Benchmarking and Evaluating the Perceptual Quality of Text-to-Video Generation with LMM
- Title(参考訳): AIGV-Assessor:LMMによるテキスト・ビデオの知覚品質のベンチマークと評価
- Authors: Jiarui Wang, Huiyu Duan, Guangtao Zhai, Juntong Wang, Xiongkuo Min,
- Abstract要約: AIGVQA-DBは,1,048プロンプトを用いた15の高度なテキスト・ビデオ・モデルによって生成された36,576個のAIGVからなる大規模データセットである。
AIGV-Assessorは、複雑な品質特性を活用して、正確なビデオ品質スコアとペアビデオ嗜好をキャプチャする新しいVQAモデルである。
- 参考スコア(独自算出の注目度): 54.44479359918971
- License:
- Abstract: The rapid advancement of large multimodal models (LMMs) has led to the rapid expansion of artificial intelligence generated videos (AIGVs), which highlights the pressing need for effective video quality assessment (VQA) models designed specifically for AIGVs. Current VQA models generally fall short in accurately assessing the perceptual quality of AIGVs due to the presence of unique distortions, such as unrealistic objects, unnatural movements, or inconsistent visual elements. To address this challenge, we first present AIGVQA-DB, a large-scale dataset comprising 36,576 AIGVs generated by 15 advanced text-to-video models using 1,048 diverse prompts. With these AIGVs, a systematic annotation pipeline including scoring and ranking processes is devised, which collects 370k expert ratings to date. Based on AIGVQA-DB, we further introduce AIGV-Assessor, a novel VQA model that leverages spatiotemporal features and LMM frameworks to capture the intricate quality attributes of AIGVs, thereby accurately predicting precise video quality scores and video pair preferences. Through comprehensive experiments on both AIGVQA-DB and existing AIGV databases, AIGV-Assessor demonstrates state-of-the-art performance, significantly surpassing existing scoring or evaluation methods in terms of multiple perceptual quality dimensions.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)の急速な進歩は人工知能生成ビデオ(AIGV)の急速な拡張につながり、AIGV向けに設計された効果的なビデオ品質評価(VQA)モデルの必要性を強調している。
現在のVQAモデルは、非現実的な物体や不自然な動き、不整合な視覚要素などの独特の歪みがあるため、AIGVの知覚的品質を正確に評価するに足りていない。
この課題に対処するために,我々はまず,1,048の多様なプロンプトを用いた15の高度なテキスト・ビデオ・モデルによって生成された36,576のAIGVからなる大規模データセットであるAIGVQA-DBを提示する。
これらのAIGVでは、スコア付けとランキングプロセスを含む体系的なアノテーションパイプラインが考案され、これまでに370万のエキスパート評価を集めている。
AIGV-Assessorは,AIGVの複雑な品質特性を捉えるために,時空間特性とLMMフレームワークを活用する新しいVQAモデルである。
AIGV-AssessorはAIGVQA-DBおよび既存のAIGVデータベースの総合的な実験を通じて、複数の知覚品質次元において既存のスコアリングや評価手法を大幅に上回る最先端の性能を示す。
関連論文リスト
- LMM-VQA: Advancing Video Quality Assessment with Large Multimodal Models [53.64461404882853]
ビデオ品質評価(VQA)アルゴリズムは、ストリーミングビデオの品質を監視し最適化するために必要である。
本稿では,LMM-VQA(Large Multi-Modal Video Quality Assessment)モデルを提案する。
論文 参考訳(メタデータ) (2024-08-26T04:29:52Z) - Benchmarking AIGC Video Quality Assessment: A Dataset and Unified Model [54.69882562863726]
主観的および客観的品質評価の観点からAIGC-VQA問題を体系的に検討する。
我々は,空間的品質,時間的品質,テキスト・ツー・ビデオアライメントの3次元から,AIGCビデオの知覚品質を評価する。
本稿では,AIGCビデオの品質を包括的かつ正確に評価するUnify Generated Video Quality Assessment (UGVQ)モデルを提案する。
論文 参考訳(メタデータ) (2024-07-31T07:54:26Z) - GAIA: Rethinking Action Quality Assessment for AI-Generated Videos [56.047773400426486]
アクション品質アセスメント(AQA)アルゴリズムは、主に実際の特定のシナリオからのアクションに焦点を当て、規範的なアクション機能で事前訓練されている。
我々は,新たな因果推論の観点から大規模主観評価を行うことにより,GAIAを構築した。
その結果、従来のAQA手法、最近のT2Vベンチマークにおけるアクション関連指標、メインストリームビデオ品質手法は、それぞれ0.454、0.191、0.519のSRCCで性能が良くないことがわかった。
論文 参考訳(メタデータ) (2024-06-10T08:18:07Z) - Enhancing Blind Video Quality Assessment with Rich Quality-aware Features [79.18772373737724]
ソーシャルメディアビデオの視覚的品質評価(BVQA)モデルを改善するための,シンプルだが効果的な手法を提案する。
本稿では,BIQAモデルとBVQAモデルを用いて,事前学習したブラインド画像品質評価(BIQA)から,リッチな品質認識機能について検討する。
実験により,提案モデルが3つのソーシャルメディアVQAデータセット上で最高の性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-14T16:32:11Z) - Ada-DQA: Adaptive Diverse Quality-aware Feature Acquisition for Video
Quality Assessment [25.5501280406614]
近年,映像品質評価 (VQA) が注目されている。
大規模VQAデータセットのアノテートに大きな費用が、現在のディープラーニング手法の主な障害となっている。
Ada-DQA(Adaptive Diverse Quality-Aware Feature Acquisition)フレームワークは、望ましい品質関連の特徴を捉えるために提案されている。
論文 参考訳(メタデータ) (2023-08-01T16:04:42Z) - Analysis of Video Quality Datasets via Design of Minimalistic Video Quality Models [71.06007696593704]
BVQA(Blind Quality Assessment)は、実世界のビデオ対応メディアアプリケーションにおけるエンドユーザの視聴体験の監視と改善に不可欠である。
実験分野として、BVQAモデルの改良は、主に数個の人間の評価されたVQAデータセットに基づいて測定されている。
最小主義的BVQAモデルを用いて,VQAデータセットの第一種計算解析を行う。
論文 参考訳(メタデータ) (2023-07-26T06:38:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。