論文の概要: OpenVid-1M: A Large-Scale High-Quality Dataset for Text-to-video Generation
- arxiv url: http://arxiv.org/abs/2407.02371v1
- Date: Tue, 2 Jul 2024 15:40:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 14:46:41.855346
- Title: OpenVid-1M: A Large-Scale High-Quality Dataset for Text-to-video Generation
- Title(参考訳): OpenVid-1M:テキスト・ビデオ・ジェネレーションのための大規模高品質データセット
- Authors: Kepan Nan, Rui Xie, Penghao Zhou, Tiehan Fan, Zhenheng Yang, Zhijie Chen, Xiang Li, Jian Yang, Ying Tai,
- Abstract要約: 本稿では,表現的キャプションを備えた高精度な高品質データセットOpenVid-1Mを紹介する。
また、OpenVid-1Mから433K 1080pのビデオをキュレートしてOpenVidHD-0.4Mを作成し、高精細ビデオ生成を推進した。
- 参考スコア(独自算出の注目度): 33.62365864717086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-video (T2V) generation has recently garnered significant attention thanks to the large multi-modality model Sora. However, T2V generation still faces two important challenges: 1) Lacking a precise open sourced high-quality dataset. The previous popular video datasets, e.g. WebVid-10M and Panda-70M, are either with low quality or too large for most research institutions. Therefore, it is challenging but crucial to collect a precise high-quality text-video pairs for T2V generation. 2) Ignoring to fully utilize textual information. Recent T2V methods have focused on vision transformers, using a simple cross attention module for video generation, which falls short of thoroughly extracting semantic information from text prompt. To address these issues, we introduce OpenVid-1M, a precise high-quality dataset with expressive captions. This open-scenario dataset contains over 1 million text-video pairs, facilitating research on T2V generation. Furthermore, we curate 433K 1080p videos from OpenVid-1M to create OpenVidHD-0.4M, advancing high-definition video generation. Additionally, we propose a novel Multi-modal Video Diffusion Transformer (MVDiT) capable of mining both structure information from visual tokens and semantic information from text tokens. Extensive experiments and ablation studies verify the superiority of OpenVid-1M over previous datasets and the effectiveness of our MVDiT.
- Abstract(参考訳): テキスト・ツー・ビデオ(T2V)生成は、大規模なマルチモダリティモデルであるSoraのおかげで、近年大きな注目を集めている。
しかし、T2V生成には2つの重要な課題がある。
1) 正確なオープンソースの高品質データセットの欠如。
以前の人気ビデオデータセットであるWebVid-10MやPanda-70Mは、ほとんどの研究機関では低品質か大きすぎる。
したがって、T2V生成のために正確な高品質のテキストビデオペアを収集することは困難であるが、極めて重要である。
2) テキスト情報の完全活用を怠る。
近年のT2V法は、テキストプロンプトから意味情報を徹底的に抽出するに足らない、ビデオ生成のための単純なクロスアテンションモジュールを用いて、視覚変換器に焦点を当てている。
これらの問題に対処するために,表現的キャプションを備えた高精度な高品質データセットOpenVid-1Mを導入する。
このオープンシナリオデータセットには100万以上のテキストビデオペアが含まれており、T2V生成の研究を容易にする。
さらに、OpenVid-1Mから433K 1080pのビデオをキュレートし、OpenVidHD-0.4Mを作成し、高精細ビデオ生成を進める。
さらに,視覚トークンから構造情報を抽出し,テキストトークンから意味情報を抽出する多モードビデオ拡散変換器(MVDiT)を提案する。
大規模な実験とアブレーション研究により,過去のデータセットよりもOpenVid-1Mの方が優れており,MVDiTの有効性が検証された。
関連論文リスト
- TIP-I2V: A Million-Scale Real Text and Image Prompt Dataset for Image-to-Video Generation [22.782099757385804]
TIP-I2Vは、ユーザが提供するテキストと画像プロンプトの大規模なデータセットとしては初めてである。
我々は、5つの最先端画像からビデオまでのモデルから、対応する生成されたビデオを提供する。
論文 参考訳(メタデータ) (2024-11-05T18:52:43Z) - Vript: A Video Is Worth Thousands of Words [54.815686588378156]
Vriptは12Kの高解像度ビデオの注釈付きコーパスで、420Kのクリップで詳細な、密度の高い、スクリプトのようなキャプションを提供する。
各クリップには145ワードのキャプションがあり、ほとんどのビデオテキストデータセットの10倍以上の長さである。
Vriptは、長いビデオのための高密度で詳細なキャプションをエンドツーエンドに生成できる強力なモデルである。
論文 参考訳(メタデータ) (2024-06-10T06:17:55Z) - Subjective-Aligned Dataset and Metric for Text-to-Video Quality Assessment [54.00254267259069]
現在までに最大規模のテキスト・ビデオ品質評価データベース(T2VQA-DB)を構築している。
データセットは、9つの異なるT2Vモデルによって生成される1万のビデオで構成されている。
主観的テキスト・ビデオ品質評価(T2VQA)のためのトランスフォーマーに基づく新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-03-18T16:52:49Z) - VidProM: A Million-scale Real Prompt-Gallery Dataset for Text-to-Video Diffusion Models [22.782099757385804]
VidProMは、実際のユーザから167万のユニークなテキスト対ビデオプロンプトを含む、最初の大規模データセットである。
このデータセットには、4つの最先端拡散モデルによって生成された669万のビデオが含まれている。
拡散モデルのためのテキスト・ビデオ・プロンプト・エンジニアリング、効率的なビデオ生成、ビデオコピー検出について検討し、より良く、より効率的に、より安全なモデルを開発することを提案する。
論文 参考訳(メタデータ) (2024-03-10T05:40:12Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z) - BigVideo: A Large-scale Video Subtitle Translation Dataset for
Multimodal Machine Translation [50.22200540985927]
本稿では,大規模ビデオ字幕翻訳データセットであるBigVideoについて述べる。
BigVideoは10倍以上の大きさで、450万の文対と9,981時間のビデオで構成されている。
テキストやビデオ間で共有される共通意味をモデル化するために,クロスモーダルエンコーダにコントラスト学習手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T08:53:36Z) - A Large Cross-Modal Video Retrieval Dataset with Reading Comprehension [49.74647080936875]
テキスト読解機能を備えた大規模・クロスモーダルなビデオ検索データセットであるTextVRを紹介した。
提案したTextVRでは,テキストを認識し,理解し,視覚的コンテキストに関連づけ,ビデオ検索作業に不可欠なテキスト意味情報を決定するために,一種類のクロスモーダルモデルが必要である。
論文 参考訳(メタデータ) (2023-05-05T08:00:14Z) - Tune-A-Video: One-Shot Tuning of Image Diffusion Models for
Text-to-Video Generation [31.882356164068753]
テキスト・トゥ・イメージ(T2I)生成の成功を再現するため、最近のテキスト・トゥ・ビデオ(T2V)生成では、T2V生成のためのデータセットに大量のデータセットが使用されている。
そこで本研究では,Tune-A-Videoが様々なアプリケーション上で時間的コヒーレントなビデオを生成することを提案する。
論文 参考訳(メタデータ) (2022-12-22T09:43:36Z) - Make-A-Video: Text-to-Video Generation without Text-Video Data [69.20996352229422]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。
我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。
空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文 参考訳(メタデータ) (2022-09-29T13:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。