論文の概要: Multilevel Semantic-Aware Model for AI-Generated Video Quality Assessment
- arxiv url: http://arxiv.org/abs/2501.02706v1
- Date: Mon, 06 Jan 2025 01:18:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 16:36:51.690577
- Title: Multilevel Semantic-Aware Model for AI-Generated Video Quality Assessment
- Title(参考訳): AIによる映像品質評価のためのマルチレベル意味認識モデル
- Authors: Jiaze Li, Haoran Xu, Shiding Zhu, Junwei He, Haozhao Wang,
- Abstract要約: 本稿では,AI生成ビデオ品質評価のためのマルチレベルセマンティック・アウェアモデルであるMSA-VQAを紹介する。
我々の階層的なフレームワークは、ビデオコンテンツを3つのレベル(フレーム、セグメント、ビデオ)で分析します。
ビデオと条件付きプロンプト間のセマンティック一貫性を確保するために,CLIPのテキストエンコーダを用いたPrompt Semantic Supervision Moduleを提案する。
- 参考スコア(独自算出の注目度): 15.529169236891532
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid development of diffusion models has greatly advanced AI-generated videos in terms of length and consistency recently, yet assessing AI-generated videos still remains challenging. Previous approaches have often focused on User-Generated Content(UGC), but few have targeted AI-Generated Video Quality Assessment methods. In this work, we introduce MSA-VQA, a Multilevel Semantic-Aware Model for AI-Generated Video Quality Assessment, which leverages CLIP-based semantic supervision and cross-attention mechanisms. Our hierarchical framework analyzes video content at three levels: frame, segment, and video. We propose a Prompt Semantic Supervision Module using text encoder of CLIP to ensure semantic consistency between videos and conditional prompts. Additionally, we propose the Semantic Mutation-aware Module to capture subtle variations between frames. Extensive experiments demonstrate our method achieves state-of-the-art results.
- Abstract(参考訳): 拡散モデルの急速な開発は、最近、長さと一貫性の観点からAI生成ビデオを大幅に進歩させたが、AI生成ビデオを評価することは依然として難しい。
これまではユーザ生成コンテンツ(UGC)に重点を置いてきたが、AI生成ビデオ品質評価手法をターゲットとするものはほとんどない。
本稿では,CLIPに基づくセマンティック・セマンティック・アウェア・モデルであるMSA-VQAを紹介する。
我々の階層的なフレームワークは、ビデオコンテンツを3つのレベル(フレーム、セグメント、ビデオ)で分析します。
ビデオと条件付きプロンプト間のセマンティック一貫性を確保するために,CLIPのテキストエンコーダを用いたPrompt Semantic Supervision Moduleを提案する。
さらに,フレーム間の微妙な変化を捉えるセマンティック・ミューテーション・アウェア・モジュールを提案する。
大規模な実験により,本手法は最先端の結果を得ることができた。
関連論文リスト
- Shot-by-Shot: Film-Grammar-Aware Training-Free Audio Description Generation [94.23160400824969]
ビデオ理解の基本単位として「ショット」を活用する2段階フレームワークを提案する。
これには、隣接するショットへの時間的コンテキストの拡張や、ショットスケールやスレッド構造などのフィルム文法装置の導入が含まれる。
我々の手法は、オープンソースとプロプライエタリなVisual-Language Modelsの両方と互換性がある。
論文 参考訳(メタデータ) (2025-04-01T17:59:57Z) - AIGVE-Tool: AI-Generated Video Evaluation Toolkit with Multifaceted Benchmark [8.827755848017578]
既存のメトリクスには、方法論を体系的に分類するための統一されたフレームワークがない。
AI生成ビデオ評価のための構造化分類と評価パイプラインを提供する統合フレームワークであるAIGVE-Toolを紹介する。
大規模なベンチマークデータセットは、手作りの指示とプロンプトに基づいて、5つのSOTAビデオ生成モデルで作成される。
論文 参考訳(メタデータ) (2025-03-18T09:36:33Z) - M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment [65.3860007085689]
M3-AGIQAは、AGIの品質評価のための包括的なフレームワークである。
中間画像記述を生成する構造付きマルチラウンド評価機構を含む。
複数のベンチマークデータセットで実施された実験は、M3-AGIQAが最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-02-21T03:05:45Z) - Content-Rich AIGC Video Quality Assessment via Intricate Text Alignment and Motion-Aware Consistency [4.922783970210658]
我々はSora-era AIGCビデオの評価のためにtextbfCRAVE (underlineContent-underlineRich underlineAIGC underlineAIGC underlineEvaluator) を提案する。
論文 参考訳(メタデータ) (2025-02-06T13:41:24Z) - Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering [71.62961521518731]
HeurVidQAは、ドメイン固有のエンティティアクションを利用して、事前訓練されたビデオ言語基盤モデルを洗練するフレームワークである。
我々のアプローチでは、これらのモデルを暗黙の知識エンジンとして扱い、ドメイン固有のエンティティアクションプロンサを使用して、推論を強化する正確な手がかりにモデルを焦点を向けます。
論文 参考訳(メタデータ) (2024-10-12T06:22:23Z) - Benchmarking Multi-dimensional AIGC Video Quality Assessment: A Dataset and Unified Model [56.03592388332793]
主観的・客観的な品質評価の観点からAIGC-VQA問題を考察する。
主観的観点からは,2,808本のAIGCビデオからなる大規模映像品質評価(LGVQ)データセットを構築した。
我々は,AIGCビデオの知覚的品質を,空間的品質,時間的品質,テキスト・ビデオアライメントの3つの重要な次元から評価した。
本稿では,AIGCビデオの多次元品質を正確に評価するUnify Generated Video Quality Assessment (UGVQ)モデルを提案する。
論文 参考訳(メタデータ) (2024-07-31T07:54:26Z) - CLIPVQA:Video Quality Assessment via CLIP [56.94085651315878]
VQA問題(CLIPVQA)に対する効率的なCLIPベースのトランスフォーマー手法を提案する。
提案したCLIPVQAは、新しい最先端のVQAパフォーマンスを実現し、既存のベンチマークVQAメソッドよりも最大で37%の汎用性を実現している。
論文 参考訳(メタデータ) (2024-07-06T02:32:28Z) - Exploring AIGC Video Quality: A Focus on Visual Harmony, Video-Text Consistency and Domain Distribution Gap [4.922783970210658]
我々は,AIGC映像品質の評価を,視覚調和,映像テキストの整合性,領域分布ギャップの3次元に分類した。
各次元に対して、AIGCビデオの総合的な品質評価を提供するための特定のモジュールを設計する。
本研究は,異なるテキスト・ツー・ビデオ・モデルにより生成される映像の視覚的品質,流動性,スタイルの有意な変化を明らかにする。
論文 参考訳(メタデータ) (2024-04-21T08:27:20Z) - InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback [38.708690624594794]
ビデオとテキストのマルチモーダルアライメントは、主にマルチモーダル命令・チューンデータのボリュームと品質が不足しているため、依然として困難である。
本稿では,AIフィードバックからの強化学習(Reinforcement Learning from AI Feedback, RLAIF)と呼ばれる,マルチモーダルAIシステムを用いた新たなアライメント戦略を提案する。
具体的には、嗜好フィードバックの生成中に、詳細な映像記述を文脈として提供することによって、文脈対応報酬モデルを提案する。
論文 参考訳(メタデータ) (2024-02-06T06:27:40Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Exploring Opinion-unaware Video Quality Assessment with Semantic
Affinity Criterion [52.07084862209754]
コントラッシブ言語画像事前学習モデルにおけるテキストプロンプトを用いた意見認識型VQAに対する明示的セマンティック親和性指標を提案する。
また、ガウス正規化とシグモイド再スケーリング戦略を通じて、異なる伝統的な低レベル自然度指数を集約する。
The proposed Blind Unified Opinion-Unaware Video Quality Index via Semantic and Technical Metric Aggregation (BUONA-VISTA)は、既存の意見不明のVQA手法を少なくとも20%改善した。
論文 参考訳(メタデータ) (2023-02-26T08:46:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。