論文の概要: VidProM: A Million-scale Real Prompt-Gallery Dataset for Text-to-Video
Diffusion Models
- arxiv url: http://arxiv.org/abs/2403.06098v1
- Date: Sun, 10 Mar 2024 05:40:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 08:30:07.059723
- Title: VidProM: A Million-scale Real Prompt-Gallery Dataset for Text-to-Video
Diffusion Models
- Title(参考訳): VidProM: テキストとビデオの拡散モデルのための数百万もの実測データ
- Authors: Wenhao Wang, Yi Yang
- Abstract要約: VidProMは、実際のユーザから166万のユニークなテキスト対ビデオプロンプトを含む、最初の大規模データセットである。
データセットには、4つの最先端拡散モデルと関連するデータによって生成された669万のビデオが含まれている。
収集したデータセットVidProMをGitHubで公開し、CC-BY-NC 4.0ライセンスの下でHugging Faceを公開しています。
- 参考スコア(独自算出の注目度): 26.91403288225327
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The arrival of Sora marks a new era for text-to-video diffusion models,
bringing significant advancements in video generation and potential
applications. However, Sora, as well as other text-to-video diffusion models,
highly relies on the prompts, and there is no publicly available dataset
featuring a study of text-to-video prompts. In this paper, we introduce
VidProM, the first large-scale dataset comprising 1.67 million unique
text-to-video prompts from real users. Additionally, the dataset includes 6.69
million videos generated by four state-of-the-art diffusion models and some
related data. We initially demonstrate the curation of this large-scale
dataset, which is a time-consuming and costly process. Subsequently, we show
how the proposed VidProM differs from DiffusionDB, a large-scale prompt-gallery
dataset for image generation. Based on the analysis of these prompts, we
identify the necessity for a new prompt dataset specifically designed for
text-to-video generation and gain insights into the preferences of real users
when creating videos. Our large-scale and diverse dataset also inspires many
exciting new research areas. For instance, to develop better, more efficient,
and safer text-to-video diffusion models, we suggest exploring text-to-video
prompt engineering, efficient video generation, and video copy detection for
diffusion models. We make the collected dataset VidProM publicly available at
GitHub and Hugging Face under the CC-BY- NC 4.0 License.
- Abstract(参考訳): Soraの登場は、テキストからビデオへの拡散モデルの新しい時代であり、ビデオ生成と潜在的な応用に大きな進歩をもたらした。
しかし、他のテキスト・ビデオ拡散モデルと同様に、Soraはプロンプトに大きく依存しており、テキスト・ビデオ・プロンプトを研究するためのデータセットは公開されていない。
本稿では,実ユーザからのテキストからビデオへのプロンプト136万個からなる,最初の大規模データセットであるvidpromを紹介する。
さらにデータセットには、4つの最先端拡散モデルと関連するデータから生成された6.69億本のビデオが含まれている。
私たちはまず、この大規模データセットのキュレーションを実演します。
次に、提案したVidProMが、画像生成のための大規模プロンプトガリーデータセットであるDiffusionDBとどのように異なるかを示す。
これらのプロンプトの分析から,テキスト・ビデオ生成に特化して設計された新しいプロンプト・データセットの必要性を特定し,ビデオ作成時の実際のユーザの嗜好に対する洞察を得る。
大規模で多様なデータセットは、多くのエキサイティングな新しい研究分野を刺激します。
例えば、より良く、より効率的で、より安全なテキスト間拡散モデルを開発するために、拡散モデルのためのテキスト間プロンプトエンジニアリング、効率的なビデオ生成、ビデオコピー検出について検討することを提案する。
収集したデータセットVidProMをGitHubで公開し、CC-BY-NC 4.0ライセンスの下でHugging Faceを公開しています。
関連論文リスト
- Grid Diffusion Models for Text-to-Video Generation [2.531998650341267]
既存のビデオ生成手法の多くは、時間次元を考慮した3D U-Netアーキテクチャまたは自己回帰生成を使用する。
アーキテクチャにおける時間次元を伴わないテキスト・ビデオ生成と大規模なテキスト・ビデオ・ペア・データセットのための,単純だが効果的な新しいグリッド拡散法を提案する。
提案手法は,定量評価と定性評価の両方において既存手法より優れている。
論文 参考訳(メタデータ) (2024-03-30T03:50:43Z) - Distilling Vision-Language Models on Millions of Videos [62.92789440875999]
合成した指導データを用いて,映像言語ベースラインから映像言語モデルを微調整する。
ビデオインストラクションチューニング(VIIT)によって生成されたビデオモデルは、高品質なキャプションを生成するために何百万ものビデオの自動ラベル付けに使用される。
副産物として、これまでで最大のビデオキャプションデータセットを生成します。
論文 参考訳(メタデータ) (2024-01-11T18:59:53Z) - A Recipe for Scaling up Text-to-Video Generation with Text-free Videos [72.59262815400928]
拡散ベースのテキスト・ツー・ビデオ世代は、過去1年で目覚ましい進歩をみせたが、それでもテキスト・ツー・画像世代には及ばない。
我々はTF-T2Vと呼ばれる新しいテキスト・ビデオ生成フレームワークを考案した。
論文 参考訳(メタデータ) (2023-12-25T16:37:39Z) - Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation [92.55296042611886]
リユースとディフューズ”と呼ばれるフレームワークを$textitVidRD$と名づけて提案する。
また、既存の複数のデータセットからの多様なコンテンツを含むビデオテキストデータを構成するための一連の戦略を提案する。
論文 参考訳(メタデータ) (2023-09-07T08:12:58Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z) - Gen-L-Video: Multi-Text to Long Video Generation via Temporal
Co-Denoising [43.35391175319815]
本研究では,複数テキスト条件付き長編ビデオの生成と編集にテキスト駆動能力を拡張する可能性について検討する。
我々は,市販のビデオ拡散モデルの拡張が可能なGen-L-Videoという新しいパラダイムを導入する。
実験結果から,本手法は映像拡散モデルの生成・編集能力を著しく拡張することが明らかとなった。
論文 参考訳(メタデータ) (2023-05-29T17:38:18Z) - A Large Cross-Modal Video Retrieval Dataset with Reading Comprehension [49.74647080936875]
テキスト読解機能を備えた大規模・クロスモーダルなビデオ検索データセットであるTextVRを紹介した。
提案したTextVRでは,テキストを認識し,理解し,視覚的コンテキストに関連づけ,ビデオ検索作業に不可欠なテキスト意味情報を決定するために,一種類のクロスモーダルモデルが必要である。
論文 参考訳(メタデータ) (2023-05-05T08:00:14Z) - MagicVideo: Efficient Video Generation With Latent Diffusion Models [76.95903791630624]
我々はMagicVideoと呼ばれる遅延拡散モデルに基づく効率的なテキスト・ビデオ生成フレームワークを提案する。
低次元空間における映像の配布をモデル化する新しい3次元U-Netの設計により、MagicVideoは1枚のGPUカード上で256×256の空間解像度でビデオクリップを合成できる。
我々は広範な実験を行い、MagicVideoが現実的または虚構的なコンテンツで高品質なビデオクリップを作成できることを実証した。
論文 参考訳(メタデータ) (2022-11-20T16:40:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。