論文の概要: CI-VID: A Coherent Interleaved Text-Video Dataset
- arxiv url: http://arxiv.org/abs/2507.01938v1
- Date: Wed, 02 Jul 2025 17:48:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.433046
- Title: CI-VID: A Coherent Interleaved Text-Video Dataset
- Title(参考訳): CI-VID: コヒーレントなインターリーブテキストビデオデータセット
- Authors: Yiming Ju, Jijin Hu, Zhengxiong Luo, Haoge Deng, hanyu Zhao, Li Du, Chengwei Wu, Donglin Hao, Xinlong Wang, Tengfei Pan,
- Abstract要約: CI-VIDは、孤立したテキスト・トゥ・ビデオ(T2V)生成を越えて、テキスト・アンド・ビデオ・トゥ・ビデオ(TV2V)生成に移行するデータセットである。
340,000以上のサンプルがあり、それぞれにテキストキャプション付きビデオクリップのコヒーレントなシーケンスがある。
また,CI-VIDでトレーニングしたモデルでは,ビデオシーケンス生成時の精度とコンテントの整合性に大きな改善が見られた。
- 参考スコア(独自算出の注目度): 23.93099552431937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-video (T2V) generation has recently attracted considerable attention, resulting in the development of numerous high-quality datasets that have propelled progress in this area. However, existing public datasets are primarily composed of isolated text-video (T-V) pairs and thus fail to support the modeling of coherent multi-clip video sequences. To address this limitation, we introduce CI-VID, a dataset that moves beyond isolated text-to-video (T2V) generation toward text-and-video-to-video (TV2V) generation, enabling models to produce coherent, multi-scene video sequences. CI-VID contains over 340,000 samples, each featuring a coherent sequence of video clips with text captions that capture both the individual content of each clip and the transitions between them, enabling visually and textually grounded generation. To further validate the effectiveness of CI-VID, we design a comprehensive, multi-dimensional benchmark incorporating human evaluation, VLM-based assessment, and similarity-based metrics. Experimental results demonstrate that models trained on CI-VID exhibit significant improvements in both accuracy and content consistency when generating video sequences. This facilitates the creation of story-driven content with smooth visual transitions and strong temporal coherence, underscoring the quality and practical utility of the CI-VID dataset We release the CI-VID dataset and the accompanying code for data construction and evaluation at: https://github.com/ymju-BAAI/CI-VID
- Abstract(参考訳): テキスト・ツー・ビデオ(T2V)生成は近年注目されており、多くの高品質なデータセットが開発され、この分野の進歩を促している。
しかし、既存の公開データセットは、主に孤立したテキストビデオ(T-V)ペアで構成されており、コヒーレントなマルチクリップビデオシーケンスのモデリングをサポートしない。
この制限に対処するために、CI-VIDは、孤立したテキスト・ツー・ビデオ(T2V)生成を超えて、テキスト・アンド・ビデオ・ビデオ(TV2V)生成に移行するデータセットである。
CI-VIDには34万以上のサンプルが含まれており、それぞれにコヒーレントな一連のビデオクリップとテキストキャプションがあり、各クリップの個々のコンテンツとそれらの間の遷移の両方をキャプチャし、視覚的およびテキスト的にグラウンドドされた生成を可能にする。
CI-VIDの有効性をさらに検証するため、人間の評価、VLMに基づく評価、類似度に基づくメトリクスを取り入れた総合的多次元ベンチマークを設計する。
実験の結果,CI-VIDでトレーニングしたモデルでは,ビデオシーケンス生成時の精度とコンテントの整合性に大きな改善が見られた。
これにより、スムーズな視覚的遷移と強い時間的コヒーレンスを備えたストーリー駆動コンテンツの作成が容易になり、CI-VIDデータセットの品質と実用性を裏付ける。
関連論文リスト
- Genesis: Multimodal Driving Scene Generation with Spatio-Temporal and Cross-Modal Consistency [32.16082566679126]
本稿では、駆動ビデオとLiDARシーケンスの合同生成のための統一的なフレームワークを提案する。
我々は,3D-VAEモダリティにDiTベースのビデオ拡散モデルを統合する2段階アーキテクチャと,NeRFベースのレンダリングと適応サンプリングを備えたBEV対応LiDARジェネレータを用いる。
構造化セマンティクスで生成をガイドするために,シーンレベルとインスタンス言語を統括する視覚レベルモデル上に構築されたキャプションモジュールであるDataCrafterを紹介する。
論文 参考訳(メタデータ) (2025-06-09T07:20:49Z) - Koala-36M: A Large-scale Video Dataset Improving Consistency between Fine-grained Conditions and Video Content [35.02160595617654]
我々は,正確な時間分割,詳細なキャプション,優れた映像品質を備えた大規模高品質ビデオデータセットであるKoala-36Mを紹介した。
確率分布に線形分類器を用い、遷移検出の精度を高め、時間的整合性を向上させる。
複数のサブメトリックを統合するVTSS(Video Training Suitability Score)を開発した。
論文 参考訳(メタデータ) (2024-10-10T17:57:49Z) - xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - Subjective-Aligned Dataset and Metric for Text-to-Video Quality Assessment [54.00254267259069]
現在までに最大規模のテキスト・ビデオ品質評価データベース(T2VQA-DB)を構築している。
データセットは、9つの異なるT2Vモデルによって生成される1万のビデオで構成されている。
主観的テキスト・ビデオ品質評価(T2VQA)のためのトランスフォーマーに基づく新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-03-18T16:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。