論文の概要: Content-Rich AIGC Video Quality Assessment via Intricate Text Alignment and Motion-Aware Consistency
- arxiv url: http://arxiv.org/abs/2502.04076v1
- Date: Thu, 06 Feb 2025 13:41:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:32:33.716064
- Title: Content-Rich AIGC Video Quality Assessment via Intricate Text Alignment and Motion-Aware Consistency
- Title(参考訳): 複雑なテキストアライメントとモーションアウェア一貫性によるコンテンツリッチAIGCビデオ品質評価
- Authors: Shangkun Sun, Xiaoyu Liang, Bowen Qu, Wei Gao,
- Abstract要約: 我々はSora-era AIGCビデオの評価のためにtextbfCRAVE (underlineContent-underlineRich underlineAIGC underlineAIGC underlineEvaluator) を提案する。
- 参考スコア(独自算出の注目度): 4.922783970210658
- License:
- Abstract: The advent of next-generation video generation models like \textit{Sora} poses challenges for AI-generated content (AIGC) video quality assessment (VQA). These models substantially mitigate flickering artifacts prevalent in prior models, enable longer and complex text prompts and generate longer videos with intricate, diverse motion patterns. Conventional VQA methods designed for simple text and basic motion patterns struggle to evaluate these content-rich videos. To this end, we propose \textbf{CRAVE} (\underline{C}ontent-\underline{R}ich \underline{A}IGC \underline{V}ideo \underline{E}valuator), specifically for the evaluation of Sora-era AIGC videos. CRAVE proposes the multi-granularity text-temporal fusion that aligns long-form complex textual semantics with video dynamics. Additionally, CRAVE leverages the hybrid motion-fidelity modeling to assess temporal artifacts. Furthermore, given the straightforward prompts and content in current AIGC VQA datasets, we introduce \textbf{CRAVE-DB}, a benchmark featuring content-rich videos from next-generation models paired with elaborate prompts. Extensive experiments have shown that the proposed CRAVE achieves excellent results on multiple AIGC VQA benchmarks, demonstrating a high degree of alignment with human perception. All data and code will be publicly available at https://github.com/littlespray/CRAVE.
- Abstract(参考訳): textit{Sora}のような次世代ビデオ生成モデルの出現は、AIGC(AIGC)ビデオ品質評価(VQA)に課題をもたらす。
これらのモデルは、以前のモデルで広く普及しているフレッカリングアーティファクトを実質的に緩和し、より長く複雑なテキストプロンプトを可能にし、複雑な多様な動きパターンを持つ長いビデオを生成する。
単純なテキストと基本動作パターンのために設計された従来のVQA手法は、これらのコンテンツリッチなビデオを評価するのに苦労する。
そこで本研究では,Sora-era AIGCビデオの評価のために,textbf{CRAVE} (\underline{C}ontent-\underline{R}ich \underline{A}IGC \underline{V}ideo \underline{E}valuator)を提案する。
CRAVEは、長大な複雑なテキスト意味論とビデオダイナミックスを整合させる多粒性テキスト時間融合を提案する。
さらに、CRAVEは、時間的アーティファクトを評価するために、ハイブリッドな動き-忠実度モデリングを利用する。
さらに、現在のAIGC VQAデータセットの直接的なプロンプトとコンテントを考慮して、精巧なプロンプトと組み合わせた次世代モデルのコンテンツリッチな動画を特徴とするベンチマークである \textbf{CRAVE-DB} を導入する。
大規模な実験により、提案したCRAVEは、複数のAIGC VQAベンチマークで優れた結果が得られ、人間の知覚と高度に一致していることが示されている。
すべてのデータとコードはhttps://github.com/littlespray/CRAVEで公開される。
関連論文リスト
- Generative Ghost: Investigating Ranking Bias Hidden in AI-Generated Videos [106.5804660736763]
ビデオ情報検索は、ビデオコンテンツにアクセスするための基本的なアプローチである。
我々は,検索モデルがアドホックや画像検索タスクにおいて,AI生成コンテンツに好適であることを示す。
我々は、ビデオ検索に挑戦する文脈において、同様のバイアスが出現するかどうかを考察する。
論文 参考訳(メタデータ) (2025-02-11T07:43:47Z) - Multilevel Semantic-Aware Model for AI-Generated Video Quality Assessment [15.529169236891532]
本稿では,AI生成ビデオ品質評価のためのマルチレベルセマンティック・アウェアモデルであるMSA-VQAを紹介する。
我々の階層的なフレームワークは、ビデオコンテンツを3つのレベル(フレーム、セグメント、ビデオ)で分析します。
ビデオと条件付きプロンプト間のセマンティック一貫性を確保するために,CLIPのテキストエンコーダを用いたPrompt Semantic Supervision Moduleを提案する。
論文 参考訳(メタデータ) (2025-01-06T01:18:11Z) - Track the Answer: Extending TextVQA from Image to Video with Spatio-Temporal Clues [8.797350517975477]
ビデオテキストベースの視覚的質問応答 (Video TextVQA) は、あるビデオにおいて、共同でテキストによる推論と視覚情報によって質問に答えることを目的とした実践的なタスクである。
画像からビデオへ生成するTextVQAフレームワークをより良く拡張するTEA(stands for textbfTrack thbfE bftextA languageser'')手法を提案する。
論文 参考訳(メタデータ) (2024-12-17T03:06:12Z) - Neuro-Symbolic Evaluation of Text-to-Video Models using Formal Verification [5.468979600421325]
我々は,新しい合成ビデオ評価指標であるNeuS-Vを紹介する。
NeuS-Vは、ニューロシンボリック形式検証技術を用いて、テキストとビデオのアライメントを厳格に評価する。
既存の指標と比較すると,NeuS-Vは5倍以上の相関性を示すことがわかった。
論文 参考訳(メタデータ) (2024-11-22T23:59:12Z) - VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - VERIFIED: A Video Corpus Moment Retrieval Benchmark for Fine-Grained Video Understanding [44.382937324454254]
既存のビデオコーパスモーメント検索(VCMR)は、粗大な理解に限られている。
本稿では,コーパスからベストマッチングモーメントをローカライズするために,より難易度の高いVCMRベンチマークを提案する。
VERIFIEDを用いて、Charades-FIG、DiDeMo-FIG、ActivityNet-FIGを含むより難易度の高いVCMRベンチマークを構築する。
論文 参考訳(メタデータ) (2024-10-11T07:42:36Z) - xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - RTQ: Rethinking Video-language Understanding Based on Image-text Model [55.278942477715084]
ビデオ言語理解は、非常に複雑なセマンティックな詳細を含んでいるため、ユニークな課題を提示する。
本稿では,これらの課題を同時に解決するRTQという新しいフレームワークを提案する。
本モデルは,ビデオ言語による事前学習がなくても,優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-01T04:51:01Z) - Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation [55.36617538438858]
本研究では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。
我々はHD-VG-130Mという大規模かつオープンソースのビデオデータセットをキュレートする。
論文 参考訳(メタデータ) (2023-05-18T11:06:15Z) - Hierarchical Conditional Relation Networks for Multimodal Video Question
Answering [67.85579756590478]
ビデオQAは、少なくとも2つの複雑さのレイヤを追加します。
条件付き関係ネットワーク(CRN)は、入力の関係を符号化する新しいオブジェクトのセットに変換するテンソルオブジェクトのセットを入力として取り込む。
その後、CRNはビデオQAに2つの形式で適用され、答えが視覚コンテンツからのみ推論されるショートフォームと、サブタイトルなどの関連情報が提示されるロングフォームである。
論文 参考訳(メタデータ) (2020-10-18T02:31:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。