論文の概要: LOVE: Benchmarking and Evaluating Text-to-Video Generation and Video-to-Text Interpretation
- arxiv url: http://arxiv.org/abs/2505.12098v1
- Date: Sat, 17 May 2025 17:49:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.036145
- Title: LOVE: Benchmarking and Evaluating Text-to-Video Generation and Video-to-Text Interpretation
- Title(参考訳): LOVE: テキスト対ビデオ生成とビデオ対テキスト解釈のベンチマークと評価
- Authors: Jiarui Wang, Huiyu Duan, Ziheng Jia, Yu Zhao, Woo Yi Yang, Zicheng Zhang, Zijian Chen, Juntong Wang, Yuke Xing, Guangtao Zhai, Xiongkuo Min,
- Abstract要約: AI生成ビデオ評価のための包括的なデータセットとベンチマークであるAIGVE-60Kを提案する。
本稿では,LMMに基づくAIGV評価尺度であるLOVEを提案する。
- 参考スコア(独自算出の注目度): 46.994391428519776
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in large multimodal models (LMMs) have driven substantial progress in both text-to-video (T2V) generation and video-to-text (V2T) interpretation tasks. However, current AI-generated videos (AIGVs) still exhibit limitations in terms of perceptual quality and text-video alignment. Therefore, a reliable and scalable automatic model for AIGV evaluation is desirable, which heavily relies on the scale and quality of human annotations. To this end, we present AIGVE-60K, a comprehensive dataset and benchmark for AI-Generated Video Evaluation, which features (i) comprehensive tasks, encompassing 3,050 extensive prompts across 20 fine-grained task dimensions, (ii) the largest human annotations, including 120K mean-opinion scores (MOSs) and 60K question-answering (QA) pairs annotated on 58,500 videos generated from 30 T2V models, and (iii) bidirectional benchmarking and evaluating for both T2V generation and V2T interpretation capabilities. Based on AIGVE-60K, we propose LOVE, a LMM-based metric for AIGV Evaluation from multiple dimensions including perceptual preference, text-video correspondence, and task-specific accuracy in terms of both instance level and model level. Comprehensive experiments demonstrate that LOVE not only achieves state-of-the-art performance on the AIGVE-60K dataset, but also generalizes effectively to a wide range of other AIGV evaluation benchmarks. These findings highlight the significance of the AIGVE-60K dataset. Database and codes are anonymously available at https://github.com/IntMeGroup/LOVE.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)の最近の進歩は、テキスト・トゥ・ビデオ(T2V)生成とビデオ・トゥ・テキスト(V2T)解釈タスクの両方において大きな進歩をもたらした。
しかし、現在のAI生成ビデオ(AIGVs)は、知覚的品質とテキストビデオのアライメントに関して制限がある。
したがって、AIGV評価のための信頼性が高くスケーラブルな自動モデルが望ましい。
この目的のために、AI生成ビデオ評価のための包括的なデータセットとベンチマークであるAIGVE-60Kを紹介する。
(i)20のきめ細かいタスク次元にわたる3,050の広範囲なプロンプトを含む包括的タスク。
(ii)30T2Vモデルから生成した58,500本のビデオに注釈を付した120K平均オピニオンスコア(MOS)と60K質問回答(QA)ペアを含む、人類最大のアノテーション。
3) T2V生成とV2T解釈の両機能について, 双方向のベンチマークと評価を行った。
AIGVE-60Kに基づいて、知覚的嗜好、テキスト-ビデオ対応、タスク固有の精度といった複数の次元からAIGV評価のためのLMMベースのメトリクスであるLOVEを提案する。
包括的実験により、LOVEはAIGVE-60Kデータセット上で最先端のパフォーマンスを達成するだけでなく、他のAIGV評価ベンチマークに効果的に一般化することを示した。
これらの結果はAIGVE-60Kデータセットの重要性を浮き彫りにした。
データベースとコードはhttps://github.com/IntMeGroup/LOVE.comで匿名で入手できる。
関連論文リスト
- AIGV-Assessor: Benchmarking and Evaluating the Perceptual Quality of Text-to-Video Generation with LMM [54.44479359918971]
AIGVQA-DBは,1,048プロンプトを用いた15の高度なテキスト・ビデオ・モデルによって生成された36,576個のAIGVからなる大規模データセットである。
AIGV-Assessorは、複雑な品質特性を活用して、正確なビデオ品質スコアとペアビデオ嗜好をキャプチャする新しいVQAモデルである。
論文 参考訳(メタデータ) (2024-11-26T08:43:15Z) - Subjective-Aligned Dataset and Metric for Text-to-Video Quality Assessment [54.00254267259069]
現在までに最大規模のテキスト・ビデオ品質評価データベース(T2VQA-DB)を構築している。
データセットは、9つの異なるT2Vモデルによって生成される1万のビデオで構成されている。
主観的テキスト・ビデオ品質評価(T2VQA)のためのトランスフォーマーに基づく新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-03-18T16:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。