論文の概要: Decomposed Diffusion Models for High-Quality Video Generation
- arxiv url: http://arxiv.org/abs/2303.08320v1
- Date: Wed, 15 Mar 2023 02:16:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 15:06:39.029387
- Title: Decomposed Diffusion Models for High-Quality Video Generation
- Title(参考訳): 高画質ビデオ生成のための分解拡散モデル
- Authors: Zhengxiong Luo, Dayou Chen, Yingya Zhang, Yan Huang, Liang Wang, Yujun
Shen, Deli Zhao, Jinren Zhou, Tieniu Tan
- Abstract要約: データ点にノイズを徐々に加えることで前方拡散過程を構築する拡散確率モデル(DPM)が、複雑なデータ分布を扱うために示されている。
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。
様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
- 参考スコア(独自算出の注目度): 64.4505602989518
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A diffusion probabilistic model (DPM), which constructs a forward diffusion
process by gradually adding noise to data points and learns the reverse
denoising process to generate new samples, has been shown to handle complex
data distribution. Despite its recent success in image synthesis, applying DPMs
to video generation is still challenging due to the high dimensional data
space. Previous methods usually adopt a standard diffusion process, where
frames in the same video clip are destroyed with independent noises, ignoring
the content redundancy and temporal correlation. This work presents a
decomposed diffusion process via resolving the per-frame noise into a base
noise that is shared among all frames and a residual noise that varies along
the time axis. The denoising pipeline employs two jointly-learned networks to
match the noise decomposition accordingly. Experiments on various datasets
confirm that our approach, termed as VideoFusion, surpasses both GAN-based and
diffusion-based alternatives in high-quality video generation. We further show
that our decomposed formulation can benefit from pre-trained image diffusion
models and well-support text-conditioned video creation.
- Abstract(参考訳): データポイントに徐々にノイズを付加して前方拡散過程を構築する拡散確率モデル (DPM) は、新しいサンプルを生成するために逆復調過程を学習し、複雑なデータ分布を扱うことを示した。
最近の画像合成の成功にもかかわらず、高次元データ空間のため、ビデオ生成にDPMを適用することは依然として困難である。
従来の方法は標準拡散プロセスを採用しており、同じビデオクリップ内のフレームが独立したノイズで破壊され、コンテンツの冗長性と時間的相関が無視される。
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。
ノイズ除去パイプラインは、ノイズ分解に適合する2つの協調学習ネットワークを用いる。
各種データセットを用いた実験により, 高品質ビデオ生成において, 提案手法がganベースと拡散ベースの両方の選択肢を上回っていることを確認した。
さらに, 画像拡散モデルの事前学習と, テキスト条件付きビデオ生成の有効性を示す。
関連論文リスト
- There and Back Again: On the relation between noises, images, and their inversions in diffusion models [3.5707423185282665]
拡散確率モデル(DDPM)は、ランダムノイズから新しい画像を合成する際に最先端の性能を達成する。
近年のDDPMベースの編集技術は、画像を近似した星音に戻すことでこの問題を緩和しようとしている。
本研究では,初期ガウス雑音,それから発生するサンプル,およびインバージョン処理により得られた対応する潜時符号化との関係について検討する。
論文 参考訳(メタデータ) (2024-10-31T00:30:35Z) - SF-V: Single Forward Video Generation Model [57.292575082410785]
そこで本稿では,単段階ビデオ生成モデルを得るための新しい手法を提案する。
実験により,提案手法は計算オーバーヘッドを大幅に低減した合成ビデオの競合生成品質を実現することを示す。
論文 参考訳(メタデータ) (2024-06-06T17:58:27Z) - Consistent Diffusion Meets Tweedie: Training Exact Ambient Diffusion Models with Noisy Data [74.2507346810066]
アンビエント拡散(アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散
本稿では,ノイズの多い学習データのみを考慮し,故障のない分布から確実にサンプルを採取する拡散モデルのトレーニングのための最初のフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-20T14:22:12Z) - Denoising Diffusion Bridge Models [54.87947768074036]
拡散モデルは、プロセスを使用してデータにノイズをマッピングする強力な生成モデルである。
画像編集のような多くのアプリケーションでは、モデル入力はランダムノイズではない分布から来る。
本研究では, DDBM(Denoising Diffusion Bridge Models)を提案する。
論文 参考訳(メタデータ) (2023-09-29T03:24:24Z) - APLA: Additional Perturbation for Latent Noise with Adversarial Training Enables Consistency [9.07931905323022]
拡散モデルに基づく新しいテキスト・ツー・ビデオ(T2V)生成ネットワーク構造を提案する。
提案手法では,1本の動画を入力として必要とせず,事前学習した安定拡散ネットワーク上に構築する。
我々は、変換器と畳み込みのハイブリッドアーキテクチャを活用して、時間的複雑さを補償し、ビデオ内の異なるフレーム間の一貫性を向上させる。
論文 参考訳(メタデータ) (2023-08-24T07:11:00Z) - Subspace Diffusion Generative Models [4.310834990284412]
スコアベースモデルは、高次元拡散過程を通じて、ノイズをデータにマッピングすることでサンプルを生成する。
データ分布がノイズに向かって進化するにつれて、射影による部分空間への拡散を制限する。
私たちのフレームワークは継続的拡散と完全に互換性があり、柔軟性を維持しています。
論文 参考訳(メタデータ) (2022-05-03T13:43:47Z) - Dynamic Dual-Output Diffusion Models [100.32273175423146]
反復分解に基づく生成は、他の生成モデルのクラスに匹敵する品質を示すことが示されている。
この方法の大きな欠点は、競合する結果を生み出すために数百のイテレーションが必要であることである。
近年の研究では、より少ないイテレーションでより高速に生成できるソリューションが提案されているが、画像の品質は徐々に低下している。
論文 参考訳(メタデータ) (2022-03-08T11:20:40Z) - Truncated Diffusion Probabilistic Models and Diffusion-based Adversarial
Auto-Encoders [137.1060633388405]
拡散に基づく生成モデルは、逆拡散連鎖を推論してデータを生成する方法を学ぶ。
我々は、データが純粋なランダムノイズになるまで、より高速で安価にノイズを付加するアプローチを提案する。
提案手法は,拡散過程と学習可能な暗黙的前処理の両方によって付与された逆自動エンコーダとしてキャスト可能であることを示す。
論文 参考訳(メタデータ) (2022-02-19T20:18:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。