論文の概要: Lumiere: A Space-Time Diffusion Model for Video Generation
- arxiv url: http://arxiv.org/abs/2401.12945v2
- Date: Mon, 5 Feb 2024 16:36:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 03:08:07.855706
- Title: Lumiere: A Space-Time Diffusion Model for Video Generation
- Title(参考訳): Lumiere:ビデオ生成のための時空間拡散モデル
- Authors: Omer Bar-Tal, Hila Chefer, Omer Tov, Charles Herrmann, Roni Paiss,
Shiran Zada, Ariel Ephrat, Junhwa Hur, Guanghui Liu, Amit Raj, Yuanzhen Li,
Michael Rubinstein, Tomer Michaeli, Oliver Wang, Deqing Sun, Tali Dekel,
Inbar Mosseri
- Abstract要約: 本研究では,一度にビデオ全体の時間的持続時間を生成する空間時間U-Netアーキテクチャを提案する。
これは、遠方から後続の時間超解像を合成する既存のビデオモデルとは対照的である。
空間的および(重要な)時間的ダウンサンプリングとアップサンプリングの両方をデプロイすることで、我々のモデルは、フルフレームレートで低解像度のビデオを直接生成することを学ぶ。
- 参考スコア(独自算出の注目度): 75.54967294846686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Lumiere -- a text-to-video diffusion model designed for
synthesizing videos that portray realistic, diverse and coherent motion -- a
pivotal challenge in video synthesis. To this end, we introduce a Space-Time
U-Net architecture that generates the entire temporal duration of the video at
once, through a single pass in the model. This is in contrast to existing video
models which synthesize distant keyframes followed by temporal super-resolution
-- an approach that inherently makes global temporal consistency difficult to
achieve. By deploying both spatial and (importantly) temporal down- and
up-sampling and leveraging a pre-trained text-to-image diffusion model, our
model learns to directly generate a full-frame-rate, low-resolution video by
processing it in multiple space-time scales. We demonstrate state-of-the-art
text-to-video generation results, and show that our design easily facilitates a
wide range of content creation tasks and video editing applications, including
image-to-video, video inpainting, and stylized generation.
- Abstract(参考訳): Lumiereは、ビデオ合成において重要な課題である、リアルで多様なコヒーレントな動きを表現するビデオの合成用に設計された、テキストからビデオへの拡散モデルである。
この目的のために、我々は、一度に1回のパスでビデオの全時間を生成するSpace-Time U-Netアーキテクチャを導入する。
これは、遠方のキーフレームを合成した既存のビデオモデルと対照的に、時間的超解像は本質的にグローバルな時間的一貫性を達成しにくくするアプローチである。
空間的および(重要な)時間的ダウンサンプリングとアップサンプリングの両方をデプロイし、事前訓練されたテキスト・ツー・イメージ拡散モデルを活用することにより、複数の時空間スケールで処理することで、フルフレームレートの低解像度映像を直接生成することを学ぶ。
我々は最先端のテキスト対ビデオ生成結果を示し,画像から映像への変換,スタイリッシュな生成など,幅広いコンテンツ作成タスクやビデオ編集アプリケーションを容易に行うことができることを示す。
関連論文リスト
- Anchored Diffusion for Video Face Reenactment [17.343307538702238]
比較的長くシームレスなビデオを合成するための新しい手法であるAnchored Diffusionを紹介する。
我々は、ランダムな非一様時間間隔でビデオシーケンスでモデルを訓練し、外部ガイダンスを介して時間情報を組み込む。
推論の際には、トランスフォーマーアーキテクチャを利用して拡散プロセスを修正し、共通のフレームに固定された一様でないシーケンスのバッチを生成する。
論文 参考訳(メタデータ) (2024-07-21T13:14:17Z) - VEnhancer: Generative Space-Time Enhancement for Video Generation [123.37212575364327]
VEnhancerは、空間領域に詳細を追加し、時間領域に詳細を合成することにより、既存のテキスト・ビデオの結果を改善する。
我々は、低フレームレートおよび低解像度ビデオの条件として、ビデオ制御ネットをトレーニングし、拡散モデルに注入する。
VEnhancerは、AI生成ビデオの強化において、既存の最先端のビデオ超解像と時空超解像を超越している。
論文 参考訳(メタデータ) (2024-07-10T13:46:08Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - MoVideo: Motion-Aware Video Generation with Diffusion Models [97.03352319694795]
本稿では,映像深度と光フローの2つの側面から動きを考慮に入れたモーションアウェア・ジェネレーション(MoVideo)フレームワークを提案する。
MoVideoは、テキスト・トゥ・ビデオと画像・トゥ・ビデオ生成の両方で最先端の結果を達成し、期待できる即時一貫性、フレームの整合性、視覚的品質を示す。
論文 参考訳(メタデータ) (2023-11-19T13:36:03Z) - Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。
我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。
本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-05-06T09:07:01Z) - Imagen Video: High Definition Video Generation with Diffusion Models [64.06483414521222]
Imagen Videoは、ビデオ拡散モデルのカスケードに基づくテキスト条件付きビデオ生成システムである。
我々は高精細度ビデオを生成することができるが、高い可制御性と世界的知識を持つ画像n Videoを見いだす。
論文 参考訳(メタデータ) (2022-10-05T14:41:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。