論文の概要: VC4VG: Optimizing Video Captions for Text-to-Video Generation
- arxiv url: http://arxiv.org/abs/2510.24134v1
- Date: Tue, 28 Oct 2025 07:19:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.824763
- Title: VC4VG: Optimizing Video Captions for Text-to-Video Generation
- Title(参考訳): VC4VG: テキスト対ビデオ生成のためのビデオキャプションの最適化
- Authors: Yang Du, Zhuoran Lin, Kaiqiang Song, Biao Wang, Zhicheng Zheng, Tiezheng Ge, Bo Zheng, Qin Jin,
- Abstract要約: 本稿では,テキスト・ツー・ビデオ(T2V)モデルのニーズに合わせて,包括的なキャプション最適化フレームワークであるVC4VGを紹介する。
評価を支援するため,T2V仕様に適合する細粒度,多次元,必要グレードのメトリクスを特徴とする新しいベンチマークVC4VG-Benchを構築した。
広汎なT2V微調整実験は、キャプション品質の改善と映像生成性能に強い相関を示す。
- 参考スコア(独自算出の注目度): 60.4614929018261
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in text-to-video (T2V) generation highlight the critical role of high-quality video-text pairs in training models capable of producing coherent and instruction-aligned videos. However, strategies for optimizing video captions specifically for T2V training remain underexplored. In this paper, we introduce VC4VG (Video Captioning for Video Generation), a comprehensive caption optimization framework tailored to the needs of T2V models.We begin by analyzing caption content from a T2V perspective, decomposing the essential elements required for video reconstruction into multiple dimensions, and proposing a principled caption design methodology. To support evaluation, we construct VC4VG-Bench, a new benchmark featuring fine-grained, multi-dimensional, and necessity-graded metrics aligned with T2V-specific requirements.Extensive T2V fine-tuning experiments demonstrate a strong correlation between improved caption quality and video generation performance, validating the effectiveness of our approach. We release all benchmark tools and code at https://github.com/qyr0403/VC4VG to support further research.
- Abstract(参考訳): テキスト・ツー・ビデオ(T2V)生成の最近の進歩は、コヒーレント・インストラクション・アライン・ビデオを生成する訓練モデルにおける高品質なビデオ・テキスト・ペアの重要性を強調している。
しかし、T2Vトレーニングに特化した動画キャプションを最適化するための戦略は、まだ未検討である。
本稿では、T2Vモデルのニーズに合わせた包括的なキャプション最適化フレームワークであるVC4VG(Video Captioning for Video Generation)を紹介し、T2Vの観点からキャプションコンテンツを解析し、ビデオ再構成に必要な必須要素を複数次元に分解し、原則化されたキャプション設計手法を提案する。
評価を支援するため,VC4VG-Benchという,細粒度,多次元,必要グレードのメトリクスをT2V固有の要件に適合させた新しいベンチマークを構築し,T2Vの微調整実験により,キャプション品質の改善と映像生成性能の相関性を実証し,提案手法の有効性を検証した。
我々は、さらなる研究をサポートするために、すべてのベンチマークツールとコードをhttps://github.com/qyr0403/VC4VGでリリースします。
関連論文リスト
- Training-free Guidance in Text-to-Video Generation via Multimodal Planning and Structured Noise Initialization [63.37161241355025]
Video-MSGはマルチモーダル計画と構造化雑音初期化に基づくT2V生成のトレーニング不要手法である。
ノイズインバージョンとデノベーションを通じて、ビデオスケッチで下流のT2V拡散モデルを導出する。
ビデオMSGは、推論時間にメモリを追加して微調整や注意操作を必要としないため、大きなT2Vモデルを採用するのが簡単である。
論文 参考訳(メタデータ) (2025-04-11T15:41:43Z) - VidCapBench: A Comprehensive Benchmark of Video Captioning for Controllable Text-to-Video Generation [44.05151169366881]
本稿では,T2V生成に特化して設計されたビデオキャプション評価手法であるVidCapBenchを紹介する。
VidCapBenchは、収集された各ビデオと、ビデオの美学、コンテンツ、動き、および物理法則に関する重要な情報とを関連付ける。
既存のビデオキャプション評価手法と比較して, VidCapBench の安定性と包括性を示した。
論文 参考訳(メタデータ) (2025-02-18T11:42:17Z) - Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model [133.01510927611452]
我々は、30Bationalパラメータと最大204フレームの動画を生成する機能を備えた、テキストからビデオまでの事前トレーニングモデルであるStep-Video-T2Vを提案する。
Vari Autoencoder (Vari Autoencoder, Video-VAE) はビデオ生成タスク用に設計されており、16x16空間圧縮比と8x時間圧縮比を達成している。
Step-Video-T2Vのパフォーマンスは、新しいビデオ生成ベンチマークであるStep-Video-T2V-Evalで評価され、最先端のテキスト・ビデオの品質を示している。
論文 参考訳(メタデータ) (2025-02-14T15:58:10Z) - T2VEval: Benchmark Dataset and Objective Evaluation Method for T2V-generated Videos [9.742383920787413]
T2VEvalはテキスト・ビデオ品質評価のためのマルチブランチ融合方式である。
テキストとビデオの一貫性、現実性、技術的品質の3つの分野にまたがるビデオを評価する。
T2VEvalは、複数のメトリクスにわたる最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-01-15T03:11:33Z) - Subjective-Aligned Dataset and Metric for Text-to-Video Quality Assessment [54.00254267259069]
現在までに最大規模のテキスト・ビデオ品質評価データベース(T2VQA-DB)を構築している。
データセットは、9つの異なるT2Vモデルによって生成される1万のビデオで構成されている。
主観的テキスト・ビデオ品質評価(T2VQA)のためのトランスフォーマーに基づく新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-03-18T16:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。