論文の概要: VCapsBench: A Large-scale Fine-grained Benchmark for Video Caption Quality Evaluation
- arxiv url: http://arxiv.org/abs/2505.23484v1
- Date: Thu, 29 May 2025 14:34:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.902914
- Title: VCapsBench: A Large-scale Fine-grained Benchmark for Video Caption Quality Evaluation
- Title(参考訳): VCapsBench:ビデオのキャプション品質評価のための大規模きめ細かいベンチマーク
- Authors: Shi-Xue Zhang, Hongfa Wang, Duojun Huang, Xin Li, Xiaobin Zhu, Xu-Cheng Yin,
- Abstract要約: ビデオキャプションは、テキストからビデオへの生成タスクにおいて重要な役割を果たす。
既存のベンチマークでは、きめ細かい評価が不十分である。
細粒度ビデオキャプション評価ベンチマーク(VCapsBench)を紹介する。
- 参考スコア(独自算出の注目度): 23.701884816475403
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Video captions play a crucial role in text-to-video generation tasks, as their quality directly influences the semantic coherence and visual fidelity of the generated videos. Although large vision-language models (VLMs) have demonstrated significant potential in caption generation, existing benchmarks inadequately address fine-grained evaluation, particularly in capturing spatial-temporal details critical for video generation. To address this gap, we introduce the Fine-grained Video Caption Evaluation Benchmark (VCapsBench), the first large-scale fine-grained benchmark comprising 5,677 (5K+) videos and 109,796 (100K+) question-answer pairs. These QA-pairs are systematically annotated across 21 fine-grained dimensions (e.g., camera movement, and shot type) that are empirically proven critical for text-to-video generation. We further introduce three metrics (Accuracy (AR), Inconsistency Rate (IR), Coverage Rate (CR)), and an automated evaluation pipeline leveraging large language model (LLM) to verify caption quality via contrastive QA-pairs analysis. By providing actionable insights for caption optimization, our benchmark can advance the development of robust text-to-video models. The dataset and codes are available at website: https://github.com/GXYM/VCapsBench.
- Abstract(参考訳): ビデオキャプションは、生成したビデオのセマンティックコヒーレンスと視覚的忠実性に直接影響するため、テキスト・ビデオ生成タスクにおいて重要な役割を果たす。
大規模な視覚言語モデル(VLM)はキャプション生成において大きな可能性を示しているが、既存のベンチマークでは、特にビデオ生成に不可欠な空間的時間的詳細の取得において、きめ細かな評価が不十分である。
このギャップに対処するために,5,677 (5K+) のビデオと109,796 (100K+) の質問応答対からなる,最初の大規模きめ細かいベンチマークであるビデオキャプション評価ベンチマーク (VCapsBench) を導入する。
これらのQAペアは、21のきめ細かい寸法(例えば、カメラの動き、ショットタイプ)に体系的にアノテートされる。
さらに,大言語モデル(LLM)を活用して,コントラッシブQAペア分析によるキャプション品質の検証を行う自動評価パイプラインを導入する。
キャプション最適化のための実用的な洞察を提供することにより、我々のベンチマークはロバストなテキスト・ビデオ・モデルの開発を前進させることができる。
データセットとコードは、Webサイト(https://github.com/GXYM/VCapsBench.com)で入手できる。
関連論文リスト
- Benchmarking Multi-dimensional AIGC Video Quality Assessment: A Dataset and Unified Model [56.03592388332793]
主観的・客観的な品質評価の観点からAIGC-VQA問題を考察する。
主観的観点からは,2,808本のAIGCビデオからなる大規模映像品質評価(LGVQ)データセットを構築した。
我々は,AIGCビデオの知覚的品質を,空間的品質,時間的品質,テキスト・ビデオアライメントの3つの重要な次元から評価した。
本稿では,AIGCビデオの多次元品質を正確に評価するUnify Generated Video Quality Assessment (UGVQ)モデルを提案する。
論文 参考訳(メタデータ) (2024-07-31T07:54:26Z) - CLIPVQA:Video Quality Assessment via CLIP [56.94085651315878]
VQA問題(CLIPVQA)に対する効率的なCLIPベースのトランスフォーマー手法を提案する。
提案したCLIPVQAは、新しい最先端のVQAパフォーマンスを実現し、既存のベンチマークVQAメソッドよりも最大で37%の汎用性を実現している。
論文 参考訳(メタデータ) (2024-07-06T02:32:28Z) - Subjective-Aligned Dataset and Metric for Text-to-Video Quality Assessment [54.00254267259069]
現在までに最大規模のテキスト・ビデオ品質評価データベース(T2VQA-DB)を構築している。
データセットは、9つの異なるT2Vモデルによって生成される1万のビデオで構成されている。
主観的テキスト・ビデオ品質評価(T2VQA)のためのトランスフォーマーに基づく新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-03-18T16:52:49Z) - AIGCBench: Comprehensive Evaluation of Image-to-Video Content Generated
by AI [1.1035305628305816]
本稿では,様々なビデオ生成タスクを評価するために設計された,先駆的な総合ベンチマークであるAIGCBenchを紹介する。
等価条件下で異なる最先端アルゴリズムを評価する、多様なオープンドメインの画像テキストデータセット。
我々は、リッチテキストプロンプトを作成するために、新しいテキストコンバインダーとGPT-4を使用し、高度なテキスト・ツー・イメージモデルを用いて画像を生成する。
論文 参考訳(メタデータ) (2024-01-03T10:08:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。