論文の概要: Towards Holistic Visual Quality Assessment of AI-Generated Videos: A LLM-Based Multi-Dimensional Evaluation Model
- arxiv url: http://arxiv.org/abs/2506.04715v1
- Date: Thu, 05 Jun 2025 07:40:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.589521
- Title: Towards Holistic Visual Quality Assessment of AI-Generated Videos: A LLM-Based Multi-Dimensional Evaluation Model
- Title(参考訳): AI生成ビデオの立体視品質評価に向けて:LLMに基づく多次元評価モデル
- Authors: Zelu Qi, Ping Shi, Chaoyang Zhang, Shuqi Wang, Fei Zhao, Da Pan, Zefeng Ying,
- Abstract要約: 我々はAIGVの視覚的品質を、技術品質、運動品質、ビデオ意味論の3つの次元に分解する。
様々な視覚・言語タスクにおける大規模言語モデル(LLM)の卓越した性能を考慮すると,LLMを品質回帰モジュールとして導入する。
NTIRE 2025 Quality Assessment of AI-Generated Content Challenge において,提案手法はtextbfsecond を達成した。
- 参考スコア(独自算出の注目度): 8.866376599966353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The development of AI-Generated Video (AIGV) technology has been remarkable in recent years, significantly transforming the paradigm of video content production. However, AIGVs still suffer from noticeable visual quality defects, such as noise, blurriness, frame jitter and low dynamic degree, which severely impact the user's viewing experience. Therefore, an effective automatic visual quality assessment is of great importance for AIGV content regulation and generative model improvement. In this work, we decompose the visual quality of AIGVs into three dimensions: technical quality, motion quality, and video semantics. For each dimension, we design corresponding encoder to achieve effective feature representation. Moreover, considering the outstanding performance of large language models (LLMs) in various vision and language tasks, we introduce a LLM as the quality regression module. To better enable the LLM to establish reasoning associations between multi-dimensional features and visual quality, we propose a specially designed multi-modal prompt engineering framework. Additionally, we incorporate LoRA fine-tuning technology during the training phase, allowing the LLM to better adapt to specific tasks. Our proposed method achieved \textbf{second place} in the NTIRE 2025 Quality Assessment of AI-Generated Content Challenge: Track 2 AI Generated video, demonstrating its effectiveness. Codes can be obtained at https://github.com/QiZelu/AIGVEval.
- Abstract(参考訳): AI-Generated Video(AIGV)技術の開発は近年注目され、ビデオコンテンツ制作のパラダイムを大きく変えている。
しかし、AIGVは、ノイズ、ぼかし、フレームジッタ、低ダイナミック度などの目立った視覚的品質の欠陥に悩まされており、ユーザーの視聴体験に深刻な影響を与えている。
そのため、AIGVコンテンツ規制と生成モデル改善において、効果的な視覚的品質評価が重要である。
本研究では,AIGVの視覚的品質を,技術品質,運動品質,映像意味論の3つの次元に分解する。
各次元に対して,効率的な特徴表現を実現するために,対応するエンコーダを設計する。
さらに,様々な視覚・言語タスクにおける大規模言語モデル(LLM)の卓越した性能を考慮すると,LLMを品質回帰モジュールとして導入する。
LLMが多次元特徴と視覚的品質の関連性を確立するために, 特別に設計されたマルチモーダル・プロンプト・エンジニアリング・フレームワークを提案する。
さらに、トレーニングフェーズ中にLoRAファインチューニング技術を導入し、LLMが特定のタスクに適応できるようにします。
NTIRE 2025 Quality Assessment of AI-Generated Content Challenge: Track 2 AI Generated Video において,提案手法の有効性を示した。
コードはhttps://github.com/QiZelu/AIGVEvalで取得できる。
関連論文リスト
- SkyReels-V2: Infinite-length Film Generative Model [35.00453687783287]
Infinite-length Film Generative Model である SkyReels-V2 を提案し,マルチモーダル大言語モデル(MLLM),マルチステージ事前学習,強化学習,拡散強制フレームワークを提案する。
我々は,基本映像生成のためのプログレッシブ・レゾリューション・プレトレーニングを確立し,その後4段階のポストトレーニング強化を行った。
論文 参考訳(メタデータ) (2025-04-17T16:37:27Z) - VQA$^2$: Visual Question Answering for Video Quality Assessment [76.81110038738699]
ビデオ品質アセスメント(VQA)は、低レベルの視覚知覚において古典的な分野である。
画像領域における最近の研究は、視覚質問応答(VQA)が視覚的品質を著しく低レベルに評価できることを示した。
VQA2インストラクションデータセットは,ビデオ品質評価に焦点をあてた最初の視覚的質問応答インストラクションデータセットである。
VQA2シリーズは、ビデオにおける空間的時間的品質の詳細の知覚を高めるために、視覚的および運動的トークンをインターリーブする。
論文 参考訳(メタデータ) (2024-11-06T09:39:52Z) - LMM-VQA: Advancing Video Quality Assessment with Large Multimodal Models [53.64461404882853]
ビデオ品質評価(VQA)アルゴリズムは、ストリーミングビデオの品質を監視し最適化するために必要である。
本稿では,LMM-VQA(Large Multi-Modal Video Quality Assessment)モデルを提案する。
論文 参考訳(メタデータ) (2024-08-26T04:29:52Z) - Benchmarking Multi-dimensional AIGC Video Quality Assessment: A Dataset and Unified Model [56.03592388332793]
主観的・客観的な品質評価の観点からAIGC-VQA問題を考察する。
主観的観点からは,2,808本のAIGCビデオからなる大規模映像品質評価(LGVQ)データセットを構築した。
我々は,AIGCビデオの知覚的品質を,空間的品質,時間的品質,テキスト・ビデオアライメントの3つの重要な次元から評価した。
本稿では,AIGCビデオの多次元品質を正確に評価するUnify Generated Video Quality Assessment (UGVQ)モデルを提案する。
論文 参考訳(メタデータ) (2024-07-31T07:54:26Z) - Exploring AIGC Video Quality: A Focus on Visual Harmony, Video-Text Consistency and Domain Distribution Gap [4.922783970210658]
我々は,AIGC映像品質の評価を,視覚調和,映像テキストの整合性,領域分布ギャップの3次元に分類した。
各次元に対して、AIGCビデオの総合的な品質評価を提供するための特定のモジュールを設計する。
本研究は,異なるテキスト・ツー・ビデオ・モデルにより生成される映像の視覚的品質,流動性,スタイルの有意な変化を明らかにする。
論文 参考訳(メタデータ) (2024-04-21T08:27:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。