論文の概要: Conditional Image-to-Video Generation with Latent Flow Diffusion Models
- arxiv url: http://arxiv.org/abs/2303.13744v1
- Date: Fri, 24 Mar 2023 01:54:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 16:14:06.966229
- Title: Conditional Image-to-Video Generation with Latent Flow Diffusion Models
- Title(参考訳): 潜流拡散モデルを用いた条件付き画像・映像生成
- Authors: Haomiao Ni, Changhao Shi, Kai Li, Sharon X. Huang, Martin Renqiang Min
- Abstract要約: 条件付き画像合成(cI2V)は、画像と条件から始まる新しい可視映像を合成することを目的としている。
我々は,新しい潜流拡散モデル(LFDM)を用いたcI2Vのアプローチを提案する。
LFDMは、所定の条件に基づいて潜時空間内の光フローシーケンスを合成し、所定の画像をワープする。
- 参考スコア(独自算出の注目度): 18.13991670747915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conditional image-to-video (cI2V) generation aims to synthesize a new
plausible video starting from an image (e.g., a person's face) and a condition
(e.g., an action class label like smile). The key challenge of the cI2V task
lies in the simultaneous generation of realistic spatial appearance and
temporal dynamics corresponding to the given image and condition. In this
paper, we propose an approach for cI2V using novel latent flow diffusion models
(LFDM) that synthesize an optical flow sequence in the latent space based on
the given condition to warp the given image. Compared to previous
direct-synthesis-based works, our proposed LFDM can better synthesize spatial
details and temporal motion by fully utilizing the spatial content of the given
image and warping it in the latent space according to the generated
temporally-coherent flow. The training of LFDM consists of two separate stages:
(1) an unsupervised learning stage to train a latent flow auto-encoder for
spatial content generation, including a flow predictor to estimate latent flow
between pairs of video frames, and (2) a conditional learning stage to train a
3D-UNet-based diffusion model (DM) for temporal latent flow generation. Unlike
previous DMs operating in pixel space or latent feature space that couples
spatial and temporal information, the DM in our LFDM only needs to learn a
low-dimensional latent flow space for motion generation, thus being more
computationally efficient. We conduct comprehensive experiments on multiple
datasets, where LFDM consistently outperforms prior arts. Furthermore, we show
that LFDM can be easily adapted to new domains by simply finetuning the image
decoder. Our code is available at https://github.com/nihaomiao/CVPR23_LFDM.
- Abstract(参考訳): 条件付き画像合成(cI2V)は、画像(例えば、人の顔)と条件(例えば、笑顔のようなアクションクラスラベル)から始まる新しい可視ビデオの合成を目的としている。
cI2Vタスクの鍵となる課題は、与えられた画像と条件に対応する現実的な空間的外観と時間的ダイナミクスの同時生成である。
本稿では,所定の条件に基づいて潜時空間内の光流列を合成し,所定の画像をワープする新しい潜時流拡散モデル(LFDM)を用いたcI2Vのアプローチを提案する。
従来の直接合成法と比較して,提案するLFDMは,与えられた画像の空間的内容を完全に活用し,生成した時間的コヒーレントな流れに応じて潜時空間でワープすることで,空間的詳細と時間的動きをよりよく合成することができる。
LFDMの訓練は,(1)映像フレーム間の潜時流を推定するフロー予測器を含む空間コンテンツ生成のための潜時流自動エンコーダを訓練する教師なし学習段階と,(2)時間潜時流生成のための3D-UNetベースの拡散モデル(DM)を訓練する条件付き学習段階とからなる。
従来の画素空間や時間的情報を扱う潜在特徴空間で動作するDMとは異なり、われわれのLFDMのDMは動作生成のための低次元の潜在フロー空間を学習するだけで、より計算効率がよい。
複数のデータセットに対して総合的な実験を行い、LFDMは先行技術より一貫して優れています。
さらに,LFDMは画像デコーダを微調整することで,新しい領域に容易に適応できることを示す。
私たちのコードはhttps://github.com/nihaomiao/CVPR23_LFDMで利用可能です。
関連論文リスト
- S2DM: Sector-Shaped Diffusion Models for Video Generation [2.0270353391739637]
ビデオ生成のためのセクタ型拡散モデル(S2DM)を提案する。
S2DMは、同じ意味と本質的な特徴を共有する本質的な関連データ群を生成することができる。
追加のトレーニングなしに、我々のモデルは、他の時間的条件と統合され、生成モデルは、既存の作業と同等のパフォーマンスを達成できることを示す。
論文 参考訳(メタデータ) (2024-03-20T08:50:15Z) - Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation [49.298187741014345]
テクスト・ツー・ビデオ生成(T2V)の複雑さの増大につながる空間的内容と時間的ダイナミクスを相互に結合する現在の方法
ビデオの空間的要因と時間的要因を2つの視点から分離することで性能を向上する拡散モデルに基づくHiGenを提案する。
論文 参考訳(メタデータ) (2023-12-07T17:59:07Z) - Generative Modeling with Phase Stochastic Bridges [49.4474628881673]
拡散モデル(DM)は、連続入力のための最先端の生成モデルを表す。
我々はtextbfphase space dynamics に基づく新しい生成モデリングフレームワークを提案する。
我々のフレームワークは、動的伝播の初期段階において、現実的なデータポイントを生成する能力を示す。
論文 参考訳(メタデータ) (2023-10-11T18:38:28Z) - Align your Latents: High-Resolution Video Synthesis with Latent
Diffusion Models [71.11425812806431]
遅延拡散モデル(LDM)は、過剰な計算要求を回避しながら高品質な画像合成を可能にする。
本稿では, LDMパラダイムを高分解能な生成, 特に資源集約的なタスクに適用する。
そこで本研究では,テキスト・ツー・ビデオ・モデリングによる実世界のシミュレーションとクリエイティブ・コンテンツ作成の2つの応用に焦点をあてる。
論文 参考訳(メタデータ) (2023-04-18T08:30:32Z) - Latent-Shift: Latent Diffusion with Temporal Shift for Efficient
Text-to-Video Generation [115.09597127418452]
Latent-Shiftは、事前訓練されたテキスト・ツー・イメージ生成モデルに基づく効率的なテキスト・ツー・ビデオ生成手法である。
Latent-Shiftは、より効率的でありながら、同等またはより良い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-04-17T17:57:06Z) - LiP-Flow: Learning Inference-time Priors for Codec Avatars via
Normalizing Flows in Latent Space [90.74976459491303]
実行時入力に条件付けされた先行モデルを導入し、この先行空間を潜伏空間の正規化フローを介して3次元顔モデルに結びつける。
正規化フローは2つの表現空間をブリッジし、潜在サンプルをある領域から別の領域に変換することで、潜在可能性の目的を定義する。
提案手法は,表情のダイナミックスや微妙な表現をよりよく捉えることによって,表現的かつ効果的に先行することを示す。
論文 参考訳(メタデータ) (2022-03-15T13:22:57Z) - P-STMO: Pre-Trained Spatial Temporal Many-to-One Model for 3D Human Pose
Estimation [78.83305967085413]
本稿では,2次元から3次元のポーズ推定作業のためのP-STMOモデルを提案する。
提案手法は,パラメータが少なく,計算オーバーヘッドが少なく,最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-03-15T04:00:59Z) - C2F-FWN: Coarse-to-Fine Flow Warping Network for Spatial-Temporal
Consistent Motion Transfer [5.220611885921671]
C2F-FWN (Carse-to-Fine Flow Warping Network) を提案する。
C2F-FWNは時間整合性を高めるために流れの一時的な一貫性(FTC)の損失を採用します。
提案手法は空間的および時間的整合性の観点から,最先端HVMT法より優れている。
論文 参考訳(メタデータ) (2020-12-16T14:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。