論文の概要: Imagen Video: High Definition Video Generation with Diffusion Models
- arxiv url: http://arxiv.org/abs/2210.02303v1
- Date: Wed, 5 Oct 2022 14:41:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 13:24:01.890594
- Title: Imagen Video: High Definition Video Generation with Diffusion Models
- Title(参考訳): imagen video: 拡散モデルを用いた高精細映像生成
- Authors: Jonathan Ho, William Chan, Chitwan Saharia, Jay Whang, Ruiqi Gao,
Alexey Gritsenko, Diederik P. Kingma, Ben Poole, Mohammad Norouzi, David J.
Fleet, Tim Salimans
- Abstract要約: Imagen Videoは、ビデオ拡散モデルのカスケードに基づくテキスト条件付きビデオ生成システムである。
我々は高精細度ビデオを生成することができるが、高い可制御性と世界的知識を持つ画像n Videoを見いだす。
- 参考スコア(独自算出の注目度): 64.06483414521222
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Imagen Video, a text-conditional video generation system based on
a cascade of video diffusion models. Given a text prompt, Imagen Video
generates high definition videos using a base video generation model and a
sequence of interleaved spatial and temporal video super-resolution models. We
describe how we scale up the system as a high definition text-to-video model
including design decisions such as the choice of fully-convolutional temporal
and spatial super-resolution models at certain resolutions, and the choice of
the v-parameterization of diffusion models. In addition, we confirm and
transfer findings from previous work on diffusion-based image generation to the
video generation setting. Finally, we apply progressive distillation to our
video models with classifier-free guidance for fast, high quality sampling. We
find Imagen Video not only capable of generating videos of high fidelity, but
also having a high degree of controllability and world knowledge, including the
ability to generate diverse videos and text animations in various artistic
styles and with 3D object understanding. See
https://imagen.research.google/video/ for samples.
- Abstract(参考訳): 本稿では,映像拡散モデルのカスケードに基づくテキスト条件付きビデオ生成システムであるImagen Videoを紹介する。
テキストプロンプトが与えられると、imagen videoはベースビデオ生成モデルとインターリーブされた空間的および時間的ビデオのスーパーレゾリューションモデルを使用して高精細なビデオを生成する。
本稿では,特定の解像度での完全畳み込み時空間超解像モデルの選択や,拡散モデルのvパラメータ化の選択などの設計決定を含む,高定義のテキスト・ビデオモデルとしてシステムをスケールアップする方法を説明する。
また, 拡散に基づく画像生成に関する先行研究から映像生成環境へ移行した知見を確認し, 伝達する。
最後に, 高速, 高品質サンプリングのための分類器フリーガイダンスを用いて, ビデオモデルにプログレッシブ蒸留を適用した。
imagen videoは忠実度の高い動画を生成するだけでなく、さまざまな芸術スタイルで多様なビデオやテキストアニメーションを生成できる機能や、3dオブジェクト理解機能など、高度な制御性と世界の知識も備えている。
サンプルはhttps://imagen.research.google/video/を参照。
関連論文リスト
- Lumiere: A Space-Time Diffusion Model for Video Generation [75.54967294846686]
本研究では,一度にビデオ全体の時間的持続時間を生成する空間時間U-Netアーキテクチャを提案する。
これは、遠方から後続の時間超解像を合成する既存のビデオモデルとは対照的である。
空間的および(重要な)時間的ダウンサンプリングとアップサンプリングの両方をデプロイすることで、我々のモデルは、フルフレームレートで低解像度のビデオを直接生成することを学ぶ。
論文 参考訳(メタデータ) (2024-01-23T18:05:25Z) - DreamVideo: High-Fidelity Image-to-Video Generation with Image Retention and Text Guidance [69.0740091741732]
本研究では,DreamVideo という名前の事前学習ビデオ拡散モデルに基づくフレーム保持分岐を考案し,高忠実度映像生成手法を提案する。
我々のモデルには強力な画像保持能力があり、我々の知る限り、他の画像-映像モデルと比較して、UCF101で最高の結果をもたらす。
論文 参考訳(メタデータ) (2023-12-05T03:16:31Z) - Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large
Datasets [36.95521842177614]
本稿では,高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細映像・高精細映像・高精細・高精細・高精細・高精細・高精細・高精細
我々は,テキスト・ツー・イメージ・プレトレーニング,ビデオ・プレトレーニング,高品質ビデオファインタニングの3つの異なる段階を同定し,評価する。
論文 参考訳(メタデータ) (2023-11-25T22:28:38Z) - VideoGen: A Reference-Guided Latent Diffusion Approach for High
Definition Text-to-Video Generation [73.54366331493007]
VideoGenはテキスト・ツー・ビデオ生成方式であり、フレームの忠実度が高く、時間的一貫性の強い高精細なビデオを生成することができる。
我々は,テキストプロンプトから高品質な画像を生成するために,既製のテキスト画像生成モデル,例えば,安定拡散(Stable Diffusion)を利用する。
論文 参考訳(メタデータ) (2023-09-01T11:14:43Z) - VIDM: Video Implicit Diffusion Models [75.90225524502759]
拡散モデルは、高品質で多様な画像の集合を合成するための強力な生成方法として登場した。
本研究では,移動の効果を暗黙の条件でモデル化する拡散モデルに基づく映像生成手法を提案する。
我々は,空間トランケーションのサンプリング,ロバストネスペナルティ,位置群正規化などの複数の戦略を提案することにより,生成されたビデオの品質を向上させる。
論文 参考訳(メタデータ) (2022-12-01T02:58:46Z) - Video Diffusion Models [47.99413440461512]
時間的コヒーレントな高忠実度ビデオの生成は、生成モデリング研究において重要なマイルストーンである。
本稿では,ビデオ生成のための拡散モデルを提案する。
そこで本研究では,テキスト条件付きビデオ生成タスクにおける最初の結果と,未条件のビデオ生成ベンチマークにおける最新結果について述べる。
論文 参考訳(メタデータ) (2022-04-07T14:08:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。