論文の概要: Vidu: a Highly Consistent, Dynamic and Skilled Text-to-Video Generator with Diffusion Models
- arxiv url: http://arxiv.org/abs/2405.04233v1
- Date: Tue, 7 May 2024 11:52:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 14:20:03.712970
- Title: Vidu: a Highly Consistent, Dynamic and Skilled Text-to-Video Generator with Diffusion Models
- Title(参考訳): Vidu:拡散モデル付き高一貫性でダイナミックで熟練したテキスト・ツー・ビデオ・ジェネレータ
- Authors: Fan Bao, Chendong Xiang, Gang Yue, Guande He, Hongzhou Zhu, Kaiwen Zheng, Min Zhao, Shilong Liu, Yaole Wang, Jun Zhu,
- Abstract要約: Viduはテキストからビデオまでのジェネレータで、1世代で最大16秒間1080pのビデオを生成することができる。
ヴィドゥは強いコヒーレンスとダイナミズムを示し、現実的なビデオと想像的なビデオの両方を生成できる。
- 参考スコア(独自算出の注目度): 26.494568142820775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Vidu, a high-performance text-to-video generator that is capable of producing 1080p videos up to 16 seconds in a single generation. Vidu is a diffusion model with U-ViT as its backbone, which unlocks the scalability and the capability for handling long videos. Vidu exhibits strong coherence and dynamism, and is capable of generating both realistic and imaginative videos, as well as understanding some professional photography techniques, on par with Sora -- the most powerful reported text-to-video generator. Finally, we perform initial experiments on other controllable video generation, including canny-to-video generation, video prediction and subject-driven generation, which demonstrate promising results.
- Abstract(参考訳): 高速なテキスト・ビデオ・ジェネレータであるViduを1世代で最大16秒で1080pの動画を生成できる。
Viduは、U-ViTをバックボーンとする拡散モデルであり、長いビデオを扱うスケーラビリティと能力を解放する。
Viduは強力なコヒーレンスとダイナミズムを示しており、現実的なビデオと想像的なビデオの両方を生成でき、またプロの撮影技術も、最も強力なテキスト・ツー・ビデオジェネレータであるSoraと同程度に理解することができる。
最後に,キャニー・ツー・ビデオ生成,映像予測,主観駆動生成など,他の制御可能なビデオ生成の初期実験を行い,有望な結果を示す。
関連論文リスト
- StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text [58.49820807662246]
本稿では,80,240,600,1200以上のフレームをスムーズな遷移で自動回帰的に生成するStreamingT2Vを紹介する。
私たちのコードは、https://github.com/Picsart-AI-Research/StreamingT2V.comで利用可能です。
論文 参考訳(メタデータ) (2024-03-21T18:27:29Z) - WorldGPT: A Sora-Inspired Video AI Agent as Rich World Models from Text
and Image Inputs [53.21307319844615]
本稿では、Soraにインスパイアされたマルチモーダル学習の力を活用して、熟練した世界モデルフレームワークを構築する革新的なビデオ生成AIエージェントを提案する。
このフレームワークには、プロンプトエンハンサーとフルビデオ翻訳という2つの部分が含まれている。
論文 参考訳(メタデータ) (2024-03-10T16:09:02Z) - AtomoVideo: High Fidelity Image-to-Video Generation [25.01443995920118]
AtomoVideo という画像合成のための高忠実度フレームワークを提案する。
多粒度画像インジェクションに基づいて、生成した映像の忠実度を所定の画像に高める。
我々のアーキテクチャは、ビデオフレーム予測タスクに柔軟に拡張し、反復生成による長いシーケンス予測を可能にする。
論文 参考訳(メタデータ) (2024-03-04T07:41:50Z) - Make Pixels Dance: High-Dynamic Video Generation [13.944607760918997]
最先端のビデオ生成手法は、高い忠実さを維持しつつも、最小限のモーションでビデオクリップを生成する傾向がある。
ビデオ生成のためのテキスト命令と合わせて,第1フレームと第2フレームの両方のイメージ命令を組み込んだ,新しいアプローチであるPixelDanceを紹介する。
論文 参考訳(メタデータ) (2023-11-18T06:25:58Z) - VideoCrafter1: Open Diffusion Models for High-Quality Video Generation [97.5767036934979]
高品質ビデオ生成のための2つの拡散モデル、すなわち、テキスト・ツー・ビデオ(T2V)と画像・ツー・ビデオ(I2V)モデルを導入する。
T2Vモデルは与えられたテキスト入力に基づいてビデオを合成し、I2Vモデルは追加のイメージ入力を含む。
提案したT2Vモデルは,解像度が1024×576$のリアルで映像品質の高いビデオを生成することができる。
論文 参考訳(メタデータ) (2023-10-30T13:12:40Z) - FreeNoise: Tuning-Free Longer Video Diffusion via Noise Rescheduling [85.60543452539076]
既存のビデオ生成モデルは、典型的には限られた数のフレームで訓練されており、推論中に高忠実度長ビデオを生成することができない。
本研究では,複数のテキストに条件付けされた長編ビデオを生成するためのテキスト駆動能力の拡張の可能性について検討する。
我々は,事前学習したビデオ拡散モデルの生成能力を高めるため,チューニング不要かつ時間効率のパラダイムであるFreeNoiseを提案する。
論文 参考訳(メタデータ) (2023-10-23T17:59:58Z) - Gen-L-Video: Multi-Text to Long Video Generation via Temporal
Co-Denoising [43.35391175319815]
本研究では,複数テキスト条件付き長編ビデオの生成と編集にテキスト駆動能力を拡張する可能性について検討する。
我々は,市販のビデオ拡散モデルの拡張が可能なGen-L-Videoという新しいパラダイムを導入する。
実験結果から,本手法は映像拡散モデルの生成・編集能力を著しく拡張することが明らかとなった。
論文 参考訳(メタデータ) (2023-05-29T17:38:18Z) - LaMD: Latent Motion Diffusion for Video Generation [69.4111397077229]
LaMDフレームワークは、モーション分解されたビデオオートエンコーダと拡散に基づくモーションジェネレータで構成される。
その結果、LaMDはダイナミックスから高度に制御可能な動きに至るまで、幅広い動きを持つ高品質なビデオを生成することがわかった。
論文 参考訳(メタデータ) (2023-04-23T10:32:32Z) - Tune-A-Video: One-Shot Tuning of Image Diffusion Models for
Text-to-Video Generation [31.882356164068753]
テキスト・トゥ・イメージ(T2I)生成の成功を再現するため、最近のテキスト・トゥ・ビデオ(T2V)生成では、T2V生成のためのデータセットに大量のデータセットが使用されている。
そこで本研究では,Tune-A-Videoが様々なアプリケーション上で時間的コヒーレントなビデオを生成することを提案する。
論文 参考訳(メタデータ) (2022-12-22T09:43:36Z) - Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive
Transformer [66.56167074658697]
本稿では3D-VQGANとトランスフォーマーを使って数千フレームのビデオを生成する手法を提案する。
評価の結果,16フレームのビデオクリップでトレーニングしたモデルでは,多種多様でコヒーレントで高品質な長編ビデオが生成できることがわかった。
また,テキストと音声に時間情報を組み込むことで,有意義な長ビデオを生成するための条件付き拡張についても紹介する。
論文 参考訳(メタデータ) (2022-04-07T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。