論文の概要: VidProM: A Million-scale Real Prompt-Gallery Dataset for Text-to-Video
Diffusion Models
- arxiv url: http://arxiv.org/abs/2403.06098v1
- Date: Sun, 10 Mar 2024 05:40:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 08:30:07.059723
- Title: VidProM: A Million-scale Real Prompt-Gallery Dataset for Text-to-Video
Diffusion Models
- Title(参考訳): VidProM: テキストとビデオの拡散モデルのための数百万もの実測データ
- Authors: Wenhao Wang, Yi Yang
- Abstract要約: VidProMは、実際のユーザから166万のユニークなテキスト対ビデオプロンプトを含む、最初の大規模データセットである。
データセットには、4つの最先端拡散モデルと関連するデータによって生成された669万のビデオが含まれている。
収集したデータセットVidProMをGitHubで公開し、CC-BY-NC 4.0ライセンスの下でHugging Faceを公開しています。
- 参考スコア(独自算出の注目度): 26.91403288225327
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The arrival of Sora marks a new era for text-to-video diffusion models,
bringing significant advancements in video generation and potential
applications. However, Sora, as well as other text-to-video diffusion models,
highly relies on the prompts, and there is no publicly available dataset
featuring a study of text-to-video prompts. In this paper, we introduce
VidProM, the first large-scale dataset comprising 1.67 million unique
text-to-video prompts from real users. Additionally, the dataset includes 6.69
million videos generated by four state-of-the-art diffusion models and some
related data. We initially demonstrate the curation of this large-scale
dataset, which is a time-consuming and costly process. Subsequently, we show
how the proposed VidProM differs from DiffusionDB, a large-scale prompt-gallery
dataset for image generation. Based on the analysis of these prompts, we
identify the necessity for a new prompt dataset specifically designed for
text-to-video generation and gain insights into the preferences of real users
when creating videos. Our large-scale and diverse dataset also inspires many
exciting new research areas. For instance, to develop better, more efficient,
and safer text-to-video diffusion models, we suggest exploring text-to-video
prompt engineering, efficient video generation, and video copy detection for
diffusion models. We make the collected dataset VidProM publicly available at
GitHub and Hugging Face under the CC-BY- NC 4.0 License.
- Abstract(参考訳): Soraの登場は、テキストからビデオへの拡散モデルの新しい時代であり、ビデオ生成と潜在的な応用に大きな進歩をもたらした。
しかし、他のテキスト・ビデオ拡散モデルと同様に、Soraはプロンプトに大きく依存しており、テキスト・ビデオ・プロンプトを研究するためのデータセットは公開されていない。
本稿では,実ユーザからのテキストからビデオへのプロンプト136万個からなる,最初の大規模データセットであるvidpromを紹介する。
さらにデータセットには、4つの最先端拡散モデルと関連するデータから生成された6.69億本のビデオが含まれている。
私たちはまず、この大規模データセットのキュレーションを実演します。
次に、提案したVidProMが、画像生成のための大規模プロンプトガリーデータセットであるDiffusionDBとどのように異なるかを示す。
これらのプロンプトの分析から,テキスト・ビデオ生成に特化して設計された新しいプロンプト・データセットの必要性を特定し,ビデオ作成時の実際のユーザの嗜好に対する洞察を得る。
大規模で多様なデータセットは、多くのエキサイティングな新しい研究分野を刺激します。
例えば、より良く、より効率的で、より安全なテキスト間拡散モデルを開発するために、拡散モデルのためのテキスト間プロンプトエンジニアリング、効率的なビデオ生成、ビデオコピー検出について検討することを提案する。
収集したデータセットVidProMをGitHubで公開し、CC-BY-NC 4.0ライセンスの下でHugging Faceを公開しています。
関連論文リスト
- TIP-I2V: A Million-Scale Real Text and Image Prompt Dataset for Image-to-Video Generation [22.782099757385804]
TIP-I2Vは、ユーザが提供するテキストと画像プロンプトの大規模なデータセットとしては初めてである。
我々は、5つの最先端画像からビデオまでのモデルから、対応する生成されたビデオを提供する。
論文 参考訳(メタデータ) (2024-11-05T18:52:43Z) - xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - Rethinking Video-Text Understanding: Retrieval from Counterfactually Augmented Data [19.210471935816273]
本稿では,映像テキスト理解のための新しい評価タスク,すなわち,対実的拡張データ(RCAD)と新しいFeint6Kデータセットを提案する。
新しい評価タスクを成功させるためには、モデルはクロスフレーム推論からビデオの包括的理解を導き出さなければならない。
提案手法は,複数のビデオテキストモデルに適用した場合に,より識別的な動作埋め込みを学習し,Feint6Kの結果を改善する。
論文 参考訳(メタデータ) (2024-07-18T01:55:48Z) - OpenVid-1M: A Large-Scale High-Quality Dataset for Text-to-video Generation [33.62365864717086]
本稿では,表現的キャプションを備えた高精度な高品質データセットOpenVid-1Mを紹介する。
また、OpenVid-1Mから433K 1080pのビデオをキュレートしてOpenVidHD-0.4Mを作成し、高精細ビデオ生成を推進した。
論文 参考訳(メタデータ) (2024-07-02T15:40:29Z) - Distilling Vision-Language Models on Millions of Videos [62.92789440875999]
合成した指導データを用いて,映像言語ベースラインから映像言語モデルを微調整する。
ビデオインストラクションチューニング(VIIT)によって生成されたビデオモデルは、高品質なキャプションを生成するために何百万ものビデオの自動ラベル付けに使用される。
副産物として、これまでで最大のビデオキャプションデータセットを生成します。
論文 参考訳(メタデータ) (2024-01-11T18:59:53Z) - A Recipe for Scaling up Text-to-Video Generation with Text-free Videos [72.59262815400928]
拡散ベースのテキスト・ツー・ビデオ世代は、過去1年で目覚ましい進歩をみせたが、それでもテキスト・ツー・画像世代には及ばない。
我々はTF-T2Vと呼ばれる新しいテキスト・ビデオ生成フレームワークを考案した。
論文 参考訳(メタデータ) (2023-12-25T16:37:39Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z) - A Large Cross-Modal Video Retrieval Dataset with Reading Comprehension [49.74647080936875]
テキスト読解機能を備えた大規模・クロスモーダルなビデオ検索データセットであるTextVRを紹介した。
提案したTextVRでは,テキストを認識し,理解し,視覚的コンテキストに関連づけ,ビデオ検索作業に不可欠なテキスト意味情報を決定するために,一種類のクロスモーダルモデルが必要である。
論文 参考訳(メタデータ) (2023-05-05T08:00:14Z) - MagicVideo: Efficient Video Generation With Latent Diffusion Models [76.95903791630624]
我々はMagicVideoと呼ばれる遅延拡散モデルに基づく効率的なテキスト・ビデオ生成フレームワークを提案する。
低次元空間における映像の配布をモデル化する新しい3次元U-Netの設計により、MagicVideoは1枚のGPUカード上で256×256の空間解像度でビデオクリップを合成できる。
我々は広範な実験を行い、MagicVideoが現実的または虚構的なコンテンツで高品質なビデオクリップを作成できることを実証した。
論文 参考訳(メタデータ) (2022-11-20T16:40:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。