論文の概要: VidCapBench: A Comprehensive Benchmark of Video Captioning for Controllable Text-to-Video Generation
- arxiv url: http://arxiv.org/abs/2502.12782v1
- Date: Tue, 18 Feb 2025 11:42:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:02:14.669304
- Title: VidCapBench: A Comprehensive Benchmark of Video Captioning for Controllable Text-to-Video Generation
- Title(参考訳): VidCapBench: コントロール可能なテキスト対ビデオ生成のためのビデオキャプションの総合ベンチマーク
- Authors: Xinlong Chen, Yuanxing Zhang, Chongling Rao, Yushuo Guan, Jiaheng Liu, Fuzheng Zhang, Chengru Song, Qiang Liu, Di Zhang, Tieniu Tan,
- Abstract要約: 本稿では,T2V生成に特化して設計されたビデオキャプション評価手法であるVidCapBenchを紹介する。
VidCapBenchは、収集された各ビデオと、ビデオの美学、コンテンツ、動き、および物理法則に関する重要な情報とを関連付ける。
既存のビデオキャプション評価手法と比較して, VidCapBench の安定性と包括性を示した。
- 参考スコア(独自算出の注目度): 44.05151169366881
- License:
- Abstract: The training of controllable text-to-video (T2V) models relies heavily on the alignment between videos and captions, yet little existing research connects video caption evaluation with T2V generation assessment. This paper introduces VidCapBench, a video caption evaluation scheme specifically designed for T2V generation, agnostic to any particular caption format. VidCapBench employs a data annotation pipeline, combining expert model labeling and human refinement, to associate each collected video with key information spanning video aesthetics, content, motion, and physical laws. VidCapBench then partitions these key information attributes into automatically assessable and manually assessable subsets, catering to both the rapid evaluation needs of agile development and the accuracy requirements of thorough validation. By evaluating numerous state-of-the-art captioning models, we demonstrate the superior stability and comprehensiveness of VidCapBench compared to existing video captioning evaluation approaches. Verification with off-the-shelf T2V models reveals a significant positive correlation between scores on VidCapBench and the T2V quality evaluation metrics, indicating that VidCapBench can provide valuable guidance for training T2V models. The project is available at https://github.com/VidCapBench/VidCapBench.
- Abstract(参考訳): 制御可能なテキスト・ツー・ビデオ(T2V)モデルのトレーニングは、ビデオとキャプションのアライメントに大きく依存しているが、ビデオキャプション評価とT2V生成評価を結びつける研究はほとんどない。
本稿では,ビデオキャプション評価方式であるVidCapBenchを紹介する。
VidCapBenchは、専門家のモデルラベリングと人間の精巧さを組み合わせたデータアノテーションパイプラインを使用して、収集された各ビデオと、ビデオの美学、コンテンツ、動き、物理法則に関する重要な情報とを関連付ける。
VidCapBenchは、これらの重要な情報属性を、自動で評価可能で手動で評価可能なサブセットに分割し、アジャイル開発における迅速な評価ニーズと、徹底的な検証の精度要件の両方に対応させる。
多数の最先端キャプションモデルを評価することにより,既存のビデオキャプション評価手法と比較して,VidCapBenchの安定性と包括性を示した。
市販のT2Vモデルによる検証では、VidCapBenchのスコアとT2Vの品質評価指標との間に有意な正の相関が見られ、VidCapBenchがT2Vモデルのトレーニングに有用なガイダンスを提供することを示す。
プロジェクトはhttps://github.com/VidCapBench/VidCapBenchで入手できる。
関連論文リスト
- Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - Subjective-Aligned Dataset and Metric for Text-to-Video Quality Assessment [54.00254267259069]
現在までに最大規模のテキスト・ビデオ品質評価データベース(T2VQA-DB)を構築している。
データセットは、9つの異なるT2Vモデルによって生成される1万のビデオで構成されている。
主観的テキスト・ビデオ品質評価(T2VQA)のためのトランスフォーマーに基づく新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-03-18T16:52:49Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z) - VideoOFA: Two-Stage Pre-Training for Video-to-Text Generation [43.90887811621963]
本稿では,ビデオキャプションや質問応答などのビデオ・テキスト生成タスクのための2段階事前学習フレームワークを提案する。
生成エンコーダ・デコーダモデルは、まず、画像言語データに基づいて、基本概念を学ぶために、共同で事前訓練される。
その結果、VoiceOFAモデルは、4つのVideo Captioningベンチマークで最先端のパフォーマンスを実現した。
論文 参考訳(メタデータ) (2023-05-04T23:27:21Z) - Paraphrasing Is All You Need for Novel Object Captioning [126.66301869607656]
新たな物体キャプション (NOC) は, 訓練中に真実のキャプションを観察することなく, 対象を含む画像を記述することを目的としている。
本稿では,NOC の2段階学習フレームワークである Paraphrasing-to-Captioning (P2C) について述べる。
論文 参考訳(メタデータ) (2022-09-25T22:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。