Fugu-MT 論文翻訳(概要): Exploring AIGC Video Quality: A Focus on Visual Harmony, Video-Text Consistency and Domain Distribution Gap

論文の概要: Exploring AIGC Video Quality: A Focus on Visual Harmony, Video-Text Consistency and Domain Distribution Gap

arxiv url: http://arxiv.org/abs/2404.13573v1
Date: Sun, 21 Apr 2024 08:27:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-23 18:21:27.344656
Title: Exploring AIGC Video Quality: A Focus on Visual Harmony, Video-Text Consistency and Domain Distribution Gap
Title（参考訳）: AIGCビデオ品質の探索:ビジュアルハーモニー、ビデオテキスト一貫性、ドメイン分散ギャップに焦点を当てる
Authors: Bowen Qu, Xiaoyu Liang, Shangkun Sun, Wei Gao,
Abstract要約: 我々は,AIGC映像品質の評価を,視覚調和,映像テキストの整合性,領域分布ギャップの3次元に分類した。各次元に対して、AIGCビデオの総合的な品質評価を提供するための特定のモジュールを設計する。本研究は,異なるテキスト・ツー・ビデオ・モデルにより生成される映像の視覚的品質,流動性,スタイルの有意な変化を明らかにする。
参考スコア（独自算出の注目度）: 4.922783970210658
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The recent advancements in Text-to-Video Artificial Intelligence Generated Content (AIGC) have been remarkable. Compared with traditional videos, the assessment of AIGC videos encounters various challenges: visual inconsistency that defy common sense, discrepancies between content and the textual prompt, and distribution gap between various generative models, etc. Target at these challenges, in this work, we categorize the assessment of AIGC video quality into three dimensions: visual harmony, video-text consistency, and domain distribution gap. For each dimension, we design specific modules to provide a comprehensive quality assessment of AIGC videos. Furthermore, our research identifies significant variations in visual quality, fluidity, and style among videos generated by different text-to-video models. Predicting the source generative model can make the AIGC video features more discriminative, which enhances the quality assessment performance. The proposed method was used in the third-place winner of the NTIRE 2024 Quality Assessment for AI-Generated Content - Track 2 Video, demonstrating its effectiveness.
Abstract（参考訳）: テキスト・トゥ・ビデオ・人工知能生成コンテンツ(AIGC)の最近の進歩は目覚ましい。従来のビデオと比較すると、AIGCビデオの評価には、常識に反する視覚的不整合、コンテンツとテキストのプロンプトの相違、様々な生成モデル間の分配ギャップなど、さまざまな課題がある。本研究では,これらの課題をターゲットとして,AIGC映像品質の評価を視覚調和,ビデオテキストの整合性,ドメイン分散ギャップの3次元に分類する。各次元に対して、AIGCビデオの総合的な品質評価を提供するための特定のモジュールを設計する。さらに,本研究では,異なるテキスト・ビデオ・モデルにより生成される映像の視覚的品質,流動性,スタイルに有意な変化が認められた。ソース生成モデルを予測することで、AIGCビデオの機能をより差別的になり、品質評価のパフォーマンスが向上する。 NTIRE 2024 Quality Assessment for AI-Generated Content - Track 2 Videoの3位で,その有効性を示した。

関連論文リスト

Towards Holistic Visual Quality Assessment of AI-Generated Videos: A LLM-Based Multi-Dimensional Evaluation Model [8.866376599966353]
我々はAIGVの視覚的品質を、技術品質、運動品質、ビデオ意味論の3つの次元に分解する。様々な視覚・言語タスクにおける大規模言語モデル(LLM)の卓越した性能を考慮すると,LLMを品質回帰モジュールとして導入する。 NTIRE 2025 Quality Assessment of AI-Generated Content Challenge において,提案手法はtextbfsecond を達成した。
論文参考訳（メタデータ） (2025-06-05T07:40:12Z)
Generative Ghost: Investigating Ranking Bias Hidden in AI-Generated Videos [106.5804660736763]
ビデオ情報検索は、ビデオコンテンツにアクセスするための基本的なアプローチである。我々は,検索モデルがアドホックや画像検索タスクにおいて,AI生成コンテンツに好適であることを示す。我々は、ビデオ検索に挑戦する文脈において、同様のバイアスが出現するかどうかを考察する。
論文参考訳（メタデータ） (2025-02-11T07:43:47Z)
Multi-Branch Collaborative Learning Network for Video Quality Assessment in Industrial Video Search [27.0139421302102]
産業システムでは、低品質のビデオ特性は4つのカテゴリに分類される。これらの低品質のビデオは、主に学術研究で見過ごされてきた。本稿では,産業用ビデオ検索システムに適したMulti-Branch Collaborative Network(MBCN)を紹介する。
論文参考訳（メタデータ） (2025-02-09T14:57:25Z)
Multilevel Semantic-Aware Model for AI-Generated Video Quality Assessment [15.529169236891532]
本稿では,AI生成ビデオ品質評価のためのマルチレベルセマンティック・アウェアモデルであるMSA-VQAを紹介する。我々の階層的なフレームワークは、ビデオコンテンツを3つのレベル(フレーム、セグメント、ビデオ)で分析します。ビデオと条件付きプロンプト間のセマンティック一貫性を確保するために,CLIPのテキストエンコーダを用いたPrompt Semantic Supervision Moduleを提案する。
論文参考訳（メタデータ） (2025-01-06T01:18:11Z)
AIGV-Assessor: Benchmarking and Evaluating the Perceptual Quality of Text-to-Video Generation with LMM [54.44479359918971]
AIGVQA-DBは,1,048プロンプトを用いた15の高度なテキスト・ビデオ・モデルによって生成された36,576個のAIGVからなる大規模データセットである。 AIGV-Assessorは、複雑な品質特性を活用して、正確なビデオ品質スコアとペアビデオ嗜好をキャプチャする新しいVQAモデルである。
論文参考訳（メタデータ） (2024-11-26T08:43:15Z)
VQA$^2$: Visual Question Answering for Video Quality Assessment [76.81110038738699]
ビデオ品質アセスメント(VQA)は、低レベルの視覚知覚において古典的な分野である。画像領域における最近の研究は、視覚質問応答(VQA)が視覚的品質を著しく低レベルに評価できることを示した。 VQA2インストラクションデータセットは,ビデオ品質評価に焦点をあてた最初の視覚的質問応答インストラクションデータセットである。 VQA2シリーズは、ビデオにおける空間的時間的品質の詳細の知覚を高めるために、視覚的および運動的トークンをインターリーブする。
論文参考訳（メタデータ） (2024-11-06T09:39:52Z)
Q-Bench-Video: Benchmarking the Video Quality Understanding of LMMs [76.15356325947731]
ビデオ品質の識別におけるLMMの習熟度を評価するための新しいベンチマークであるQ-Bench-Videoを紹介する。 2,378組の質問応答ペアを収集し、12のオープンソースと5のプロプライエタリなLMMでテストする。以上の結果から,LMMは映像品質の基本的な理解を保ちつつも,その性能は不完全かつ不正確であり,人的性能に比較して顕著な相違があることが示唆された。
論文参考訳（メタデータ） (2024-09-30T08:05:00Z)
Advancing Video Quality Assessment for AIGC [17.23281750562252]
本稿では,平均絶対誤差とクロスエントロピー損失を組み合わせ,フレーム間品質の不整合を緩和する新たな損失関数を提案する。また,モデルの一般化能力を高めるために,敵対的トレーニングを活用しながら,重要なコンテンツを維持するために革新的なS2CNet技術を導入する。
論文参考訳（メタデータ） (2024-09-23T10:36:22Z)
Benchmarking AIGC Video Quality Assessment: A Dataset and Unified Model [54.69882562863726]
主観的および客観的品質評価の観点からAIGC-VQA問題を体系的に検討する。我々は,空間的品質,時間的品質,テキスト・ツー・ビデオアライメントの3次元から,AIGCビデオの知覚品質を評価する。本稿では,AIGCビデオの品質を包括的かつ正確に評価するUnify Generated Video Quality Assessment (UGVQ)モデルを提案する。
論文参考訳（メタデータ） (2024-07-31T07:54:26Z)
CLIPVQA:Video Quality Assessment via CLIP [56.94085651315878]
VQA問題(CLIPVQA)に対する効率的なCLIPベースのトランスフォーマー手法を提案する。提案したCLIPVQAは、新しい最先端のVQAパフォーマンスを実現し、既存のベンチマークVQAメソッドよりも最大で37%の汎用性を実現している。
論文参考訳（メタデータ） (2024-07-06T02:32:28Z)
KVQ: Kwai Video Quality Assessment for Short-form Videos [24.5291786508361]
我々は,600本のユーザアップロードショートビデオと3600本のプロセッシングビデオからなる,最初の大規模KVQ(Kleidoscope short Video database for Quality Assessment)を構築した。そこで我々は,KSVQEというビデオ品質評価装置を提案する。これにより,品質決定セマンティクスを大規模視覚言語モデルの内容理解とともに識別することができる。
論文参考訳（メタデータ） (2024-02-11T14:37:54Z)
AIGCBench: Comprehensive Evaluation of Image-to-Video Content Generated by AI [1.1035305628305816]
本稿では,様々なビデオ生成タスクを評価するために設計された,先駆的な総合ベンチマークであるAIGCBenchを紹介する。等価条件下で異なる最先端アルゴリズムを評価する、多様なオープンドメインの画像テキストデータセット。我々は、リッチテキストプロンプトを作成するために、新しいテキストコンバインダーとGPT-4を使用し、高度なテキスト・ツー・イメージモデルを用いて画像を生成する。
論文参考訳（メタデータ） (2024-01-03T10:08:40Z)
Towards Explainable In-the-Wild Video Quality Assessment: A Database and a Language-Prompted Approach [52.07084862209754]
われわれは、13次元の質関連因子に関する4,543本のビデオについて200万以上の意見を集めている。具体的には、各次元に対して正、負、中立の選択をラベル付けするよう被験者に求める。これらの説明レベルの意見は、特定の品質要因と抽象的な主観的品質評価の関係を測ることができる。
論文参考訳（メタデータ） (2023-05-22T05:20:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。