論文の概要: CI-VID: A Coherent Interleaved Text-Video Dataset
- arxiv url: http://arxiv.org/abs/2507.01938v1
- Date: Wed, 02 Jul 2025 17:48:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.433046
- Title: CI-VID: A Coherent Interleaved Text-Video Dataset
- Title(参考訳): CI-VID: コヒーレントなインターリーブテキストビデオデータセット
- Authors: Yiming Ju, Jijin Hu, Zhengxiong Luo, Haoge Deng, hanyu Zhao, Li Du, Chengwei Wu, Donglin Hao, Xinlong Wang, Tengfei Pan,
- Abstract要約: CI-VIDは、孤立したテキスト・トゥ・ビデオ(T2V)生成を越えて、テキスト・アンド・ビデオ・トゥ・ビデオ(TV2V)生成に移行するデータセットである。
340,000以上のサンプルがあり、それぞれにテキストキャプション付きビデオクリップのコヒーレントなシーケンスがある。
また,CI-VIDでトレーニングしたモデルでは,ビデオシーケンス生成時の精度とコンテントの整合性に大きな改善が見られた。
- 参考スコア(独自算出の注目度): 23.93099552431937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-video (T2V) generation has recently attracted considerable attention, resulting in the development of numerous high-quality datasets that have propelled progress in this area. However, existing public datasets are primarily composed of isolated text-video (T-V) pairs and thus fail to support the modeling of coherent multi-clip video sequences. To address this limitation, we introduce CI-VID, a dataset that moves beyond isolated text-to-video (T2V) generation toward text-and-video-to-video (TV2V) generation, enabling models to produce coherent, multi-scene video sequences. CI-VID contains over 340,000 samples, each featuring a coherent sequence of video clips with text captions that capture both the individual content of each clip and the transitions between them, enabling visually and textually grounded generation. To further validate the effectiveness of CI-VID, we design a comprehensive, multi-dimensional benchmark incorporating human evaluation, VLM-based assessment, and similarity-based metrics. Experimental results demonstrate that models trained on CI-VID exhibit significant improvements in both accuracy and content consistency when generating video sequences. This facilitates the creation of story-driven content with smooth visual transitions and strong temporal coherence, underscoring the quality and practical utility of the CI-VID dataset We release the CI-VID dataset and the accompanying code for data construction and evaluation at: https://github.com/ymju-BAAI/CI-VID
- Abstract(参考訳): テキスト・ツー・ビデオ(T2V)生成は近年注目されており、多くの高品質なデータセットが開発され、この分野の進歩を促している。
しかし、既存の公開データセットは、主に孤立したテキストビデオ(T-V)ペアで構成されており、コヒーレントなマルチクリップビデオシーケンスのモデリングをサポートしない。
この制限に対処するために、CI-VIDは、孤立したテキスト・ツー・ビデオ(T2V)生成を超えて、テキスト・アンド・ビデオ・ビデオ(TV2V)生成に移行するデータセットである。
CI-VIDには34万以上のサンプルが含まれており、それぞれにコヒーレントな一連のビデオクリップとテキストキャプションがあり、各クリップの個々のコンテンツとそれらの間の遷移の両方をキャプチャし、視覚的およびテキスト的にグラウンドドされた生成を可能にする。
CI-VIDの有効性をさらに検証するため、人間の評価、VLMに基づく評価、類似度に基づくメトリクスを取り入れた総合的多次元ベンチマークを設計する。
実験の結果,CI-VIDでトレーニングしたモデルでは,ビデオシーケンス生成時の精度とコンテントの整合性に大きな改善が見られた。
これにより、スムーズな視覚的遷移と強い時間的コヒーレンスを備えたストーリー駆動コンテンツの作成が容易になり、CI-VIDデータセットの品質と実用性を裏付ける。
関連論文リスト
- Genesis: Multimodal Driving Scene Generation with Spatio-Temporal and Cross-Modal Consistency [32.16082566679126]
本稿では、駆動ビデオとLiDARシーケンスの合同生成のための統一的なフレームワークを提案する。
我々は,3D-VAEモダリティにDiTベースのビデオ拡散モデルを統合する2段階アーキテクチャと,NeRFベースのレンダリングと適応サンプリングを備えたBEV対応LiDARジェネレータを用いる。
構造化セマンティクスで生成をガイドするために,シーンレベルとインスタンス言語を統括する視覚レベルモデル上に構築されたキャプションモジュールであるDataCrafterを紹介する。
論文 参考訳(メタデータ) (2025-06-09T07:20:49Z) - HiTVideo: Hierarchical Tokenizers for Enhancing Text-to-Video Generation with Autoregressive Large Language Models [63.65066762436074]
HiTVideoは、テキストからビデオ生成タスクにおける既存のビデオトークンの潜在的な制限を解決することを目的としている。
マルチレイヤの離散トークンフレームワークを備えた3D因果VAEを使用し、ビデオコンテンツを階層的に構造化されたコードブックにエンコードする。
論文 参考訳(メタデータ) (2025-03-14T15:36:39Z) - Raccoon: Multi-stage Diffusion Training with Coarse-to-Fine Curating Videos [15.781862060265519]
CFC-VIDS-1Mは、体系的な粗いキュレーションパイプラインによって構築された高品質のビデオデータセットである。
我々は、空間的時間的注意機構を分離したトランスフォーマーベースのアーキテクチャであるRACCOONを開発した。
論文 参考訳(メタデータ) (2025-02-28T18:56:35Z) - Koala-36M: A Large-scale Video Dataset Improving Consistency between Fine-grained Conditions and Video Content [35.02160595617654]
我々は,正確な時間分割,詳細なキャプション,優れた映像品質を備えた大規模高品質ビデオデータセットであるKoala-36Mを紹介した。
確率分布に線形分類器を用い、遷移検出の精度を高め、時間的整合性を向上させる。
複数のサブメトリックを統合するVTSS(Video Training Suitability Score)を開発した。
論文 参考訳(メタデータ) (2024-10-10T17:57:49Z) - xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation [55.57459883629706]
コンポジションテキスト・ビデオ生成に関する最初の体系的研究を行う。
合成テキスト・ビデオ生成に適した最初のベンチマークであるT2V-CompBenchを提案する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - Subjective-Aligned Dataset and Metric for Text-to-Video Quality Assessment [54.00254267259069]
現在までに最大規模のテキスト・ビデオ品質評価データベース(T2VQA-DB)を構築している。
データセットは、9つの異なるT2Vモデルによって生成される1万のビデオで構成されている。
主観的テキスト・ビデオ品質評価(T2VQA)のためのトランスフォーマーに基づく新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-03-18T16:52:49Z) - Multi-Sentence Grounding for Long-term Instructional Video [63.27905419718045]
大規模インストラクショナルデータセットを記述するための,自動でスケーラブルなパイプラインを確立することを目的としている。
複数の記述ステップを監督する高品質なビデオテキストデータセット、HowToStepを構築した。
論文 参考訳(メタデータ) (2023-12-21T17:28:09Z) - I2VGen-XL: High-Quality Image-to-Video Synthesis via Cascaded Diffusion
Models [54.99771394322512]
ビデオ合成は拡散モデルの急速な発展の恩恵を受け、近年顕著な進歩を遂げている。
意味的正確性、明快さ、連続性-時間的連続性という観点ではまだ遭遇に挑戦する。
これら2つの要素を分離することでモデル性能を向上させるカスケードI2VGen-XL手法を提案する。
I2VGen-XLは、生成したビデオの意味的精度、詳細の連続性、明快さを同時に向上させることができる。
論文 参考訳(メタデータ) (2023-11-07T17:16:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。