論文の概要: Lumiere: A Space-Time Diffusion Model for Video Generation
- arxiv url: http://arxiv.org/abs/2401.12945v2
- Date: Mon, 5 Feb 2024 16:36:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 03:08:07.855706
- Title: Lumiere: A Space-Time Diffusion Model for Video Generation
- Title(参考訳): Lumiere:ビデオ生成のための時空間拡散モデル
- Authors: Omer Bar-Tal, Hila Chefer, Omer Tov, Charles Herrmann, Roni Paiss,
Shiran Zada, Ariel Ephrat, Junhwa Hur, Guanghui Liu, Amit Raj, Yuanzhen Li,
Michael Rubinstein, Tomer Michaeli, Oliver Wang, Deqing Sun, Tali Dekel,
Inbar Mosseri
- Abstract要約: 本研究では,一度にビデオ全体の時間的持続時間を生成する空間時間U-Netアーキテクチャを提案する。
これは、遠方から後続の時間超解像を合成する既存のビデオモデルとは対照的である。
空間的および(重要な)時間的ダウンサンプリングとアップサンプリングの両方をデプロイすることで、我々のモデルは、フルフレームレートで低解像度のビデオを直接生成することを学ぶ。
- 参考スコア(独自算出の注目度): 75.54967294846686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Lumiere -- a text-to-video diffusion model designed for
synthesizing videos that portray realistic, diverse and coherent motion -- a
pivotal challenge in video synthesis. To this end, we introduce a Space-Time
U-Net architecture that generates the entire temporal duration of the video at
once, through a single pass in the model. This is in contrast to existing video
models which synthesize distant keyframes followed by temporal super-resolution
-- an approach that inherently makes global temporal consistency difficult to
achieve. By deploying both spatial and (importantly) temporal down- and
up-sampling and leveraging a pre-trained text-to-image diffusion model, our
model learns to directly generate a full-frame-rate, low-resolution video by
processing it in multiple space-time scales. We demonstrate state-of-the-art
text-to-video generation results, and show that our design easily facilitates a
wide range of content creation tasks and video editing applications, including
image-to-video, video inpainting, and stylized generation.
- Abstract(参考訳): Lumiereは、ビデオ合成において重要な課題である、リアルで多様なコヒーレントな動きを表現するビデオの合成用に設計された、テキストからビデオへの拡散モデルである。
この目的のために、我々は、一度に1回のパスでビデオの全時間を生成するSpace-Time U-Netアーキテクチャを導入する。
これは、遠方のキーフレームを合成した既存のビデオモデルと対照的に、時間的超解像は本質的にグローバルな時間的一貫性を達成しにくくするアプローチである。
空間的および(重要な)時間的ダウンサンプリングとアップサンプリングの両方をデプロイし、事前訓練されたテキスト・ツー・イメージ拡散モデルを活用することにより、複数の時空間スケールで処理することで、フルフレームレートの低解像度映像を直接生成することを学ぶ。
我々は最先端のテキスト対ビデオ生成結果を示し,画像から映像への変換,スタイリッシュな生成など,幅広いコンテンツ作成タスクやビデオ編集アプリケーションを容易に行うことができることを示す。
関連論文リスト
- Video-LaVIT: Unified Video-Language Pre-training with Decoupled
Visual-Motional Tokenization [53.92519123600325]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - MoVideo: Motion-Aware Video Generation with Diffusion Models [102.81825637792572]
本稿では,映像深度と光フローの2つの側面から動きを考慮に入れたモーションアウェア・ジェネレーション(MoVideo)フレームワークを提案する。
MoVideoは、テキスト・トゥ・ビデオと画像・トゥ・ビデオ生成の両方で最先端の結果を達成し、期待できる即時一貫性、フレームの整合性、視覚的品質を示す。
論文 参考訳(メタデータ) (2023-11-19T13:36:03Z) - VideoFactory: Swap Attention in Spatiotemporal Diffusions for
Text-to-Video Generation [57.98975319014234]
VideoFactoryはハイデフィニション(1376x768)、ワイドスクリーン(16:9)の動画を透かしなしで制作できる。
本研究では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-18T11:06:15Z) - Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。
我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。
本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-05-06T09:07:01Z) - Learning Fine-Grained Visual Understanding for Video Question Answering
via Decoupling Spatial-Temporal Modeling [28.530765643908083]
空間的時間的モデリングを分離し、画像とビデオ言語を統合して、きめ細かい視覚的理解を学習する。
本稿では,ビデオシーケンス中の事象の時間的位置を特定することを必要とする,新たな事前学習対象であるテンポラル参照モデリングを提案する。
我々のモデルは、桁違いの大きなデータセットで事前訓練された以前の作業より優れています。
論文 参考訳(メタデータ) (2022-10-08T07:03:31Z) - Imagen Video: High Definition Video Generation with Diffusion Models [64.06483414521222]
Imagen Videoは、ビデオ拡散モデルのカスケードに基づくテキスト条件付きビデオ生成システムである。
我々は高精細度ビデオを生成することができるが、高い可制御性と世界的知識を持つ画像n Videoを見いだす。
論文 参考訳(メタデータ) (2022-10-05T14:41:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。