論文の概要: UltraVideo: High-Quality UHD Video Dataset with Comprehensive Captions
- arxiv url: http://arxiv.org/abs/2506.13691v1
- Date: Mon, 16 Jun 2025 16:52:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:49.088498
- Title: UltraVideo: High-Quality UHD Video Dataset with Comprehensive Captions
- Title(参考訳): UltraVideo:超高画質UHDビデオデータセット
- Authors: Zhucun Xue, Jiangning Zhang, Teng Hu, Haoyang He, Yinan Chen, Yuxuan Cai, Yabiao Wang, Chengjie Wang, Yong Liu, Xiangtai Li, Dacheng Tao,
- Abstract要約: ビデオアプリケーションへの需要は、高品質なビデオ生成モデルにより高い要求を課す。
我々はまず,高品質なUHD-4Kテキスト・ビデオ・データセットUltraVideoを提案する。
各ビデオには9つの構成キャプションと1つの要約キャプション(平均824語)がある。
- 参考スコア(独自算出の注目度): 88.66676805439512
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The quality of the video dataset (image quality, resolution, and fine-grained caption) greatly influences the performance of the video generation model. The growing demand for video applications sets higher requirements for high-quality video generation models. For example, the generation of movie-level Ultra-High Definition (UHD) videos and the creation of 4K short video content. However, the existing public datasets cannot support related research and applications. In this paper, we first propose a high-quality open-sourced UHD-4K (22.4\% of which are 8K) text-to-video dataset named UltraVideo, which contains a wide range of topics (more than 100 kinds), and each video has 9 structured captions with one summarized caption (average of 824 words). Specifically, we carefully design a highly automated curation process with four stages to obtain the final high-quality dataset: \textit{i)} collection of diverse and high-quality video clips. \textit{ii)} statistical data filtering. \textit{iii)} model-based data purification. \textit{iv)} generation of comprehensive, structured captions. In addition, we expand Wan to UltraWan-1K/-4K, which can natively generate high-quality 1K/4K videos with more consistent text controllability, demonstrating the effectiveness of our data curation.We believe that this work can make a significant contribution to future research on UHD video generation. UltraVideo dataset and UltraWan models are available at https://xzc-zju.github.io/projects/UltraVideo.
- Abstract(参考訳): 映像データセットの品質(画質、解像度、微粒化キャプション)は、映像生成モデルの性能に大きな影響を及ぼす。
ビデオアプリケーションに対する需要の高まりは、高品質なビデオ生成モデルに対するより高い要求を規定している。
例えば、映画レベルのUHD(Ultra-High Definition)ビデオの生成や、4Kショートビデオコンテンツの作成などである。
しかし、既存の公開データセットは関連する研究やアプリケーションをサポートしない。
本稿では,まず,100種以上のトピックを含む高品質なUHD-4K(うち22.4\%が8K)テキスト・ビデオ・データセットであるUltraVideoを提案する。
具体的には、4段階の高度自動キュレーションプロセスを慎重に設計し、最終的な高品質なデータセットを得る。
統計データフィルタリング。
モデルベースのデータ浄化。
包括的で構造化されたキャプションの生成。
さらに,WanをUltraWan-1K/4Kに拡張し,高品質な1K/4K動画を一貫したテキスト制御性でネイティブに生成し,データキュレーションの有効性を実証する。
UltraVideoデータセットとUltraWanモデルはhttps://xzc-zju.github.io/projects/UltraVideoで入手できる。
関連論文リスト
- LVD-2M: A Long-take Video Dataset with Temporally Dense Captions [68.88624389174026]
高品質なロングテイクビデオを選択し、時間的に密度の高いキャプションを生成するためのパイプラインを新たに導入する。
具体的には、シーンカット、ダイナミック度、セマンティックレベルの品質を含む映像品質を定量的に評価する指標のセットを定義する。
LVD-2Mは,200万本のビデオからなり,それぞれ10秒以上をカバーし,時間的に密度の高いキャプションを付加する。
論文 参考訳(メタデータ) (2024-10-14T17:59:56Z) - xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - ShareGPT4Video: Improving Video Understanding and Generation with Better Captions [93.29360532845062]
本稿では,大容量ビデオ言語モデル(LVLM)の映像理解と,高密度かつ高精度なキャプションによるテキスト・ツー・ビデオモデル(T2VM)のビデオ生成を目的としたShareGPT4Videoシリーズを紹介する。
ShareGPT4Video, 40K GPT4V Annotated dense Casts of video with various lengths and sources, developed through carefully designed data filtering and annotating strategy。
さらに,任意の動画に対して高品質なキャプションを効率よく生成できる優れたキャプションキャプタであるShareCaptioner-Videoを開発した。
論文 参考訳(メタデータ) (2024-06-06T17:58:54Z) - VidProM: A Million-scale Real Prompt-Gallery Dataset for Text-to-Video Diffusion Models [22.782099757385804]
VidProMは、実際のユーザから167万のユニークなテキスト対ビデオプロンプトを含む、最初の大規模データセットである。
このデータセットには、4つの最先端拡散モデルによって生成された669万のビデオが含まれている。
拡散モデルのためのテキスト・ビデオ・プロンプト・エンジニアリング、効率的なビデオ生成、ビデオコピー検出について検討し、より良く、より効率的に、より安全なモデルを開発することを提案する。
論文 参考訳(メタデータ) (2024-03-10T05:40:12Z) - Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers [93.65253661843145]
高品質なキャプションを持つビデオデータセットを自動構築する手法を提案する。
具体的には、公開されているHD-VILA-100Mデータセットから3.8Mの高解像度ビデオをキュレートする。
次に、複数のモダリティの教師モデルを適用して、各ビデオのキャプションを取得する。
こうして、高品質なテキストキャプションと、7000万のビデオが組み合わされる。
論文 参考訳(メタデータ) (2024-02-29T18:59:50Z) - Distilling Vision-Language Models on Millions of Videos [62.92789440875999]
合成した指導データを用いて,映像言語ベースラインから映像言語モデルを微調整する。
ビデオインストラクションチューニング(VIIT)によって生成されたビデオモデルは、高品質なキャプションを生成するために何百万ものビデオの自動ラベル付けに使用される。
副産物として、これまでで最大のビデオキャプションデータセットを生成します。
論文 参考訳(メタデータ) (2024-01-11T18:59:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。