論文の概要: VideoFusion: Decomposed Diffusion Models for High-Quality Video
Generation
- arxiv url: http://arxiv.org/abs/2303.08320v4
- Date: Fri, 13 Oct 2023 01:43:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 18:08:49.048289
- Title: VideoFusion: Decomposed Diffusion Models for High-Quality Video
Generation
- Title(参考訳): videofusion:高品質ビデオ生成のための分解拡散モデル
- Authors: Zhengxiong Luo, Dayou Chen, Yingya Zhang, Yan Huang, Liang Wang, Yujun
Shen, Deli Zhao, Jingren Zhou, Tieniu Tan
- Abstract要約: 本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。
様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
- 参考スコア(独自算出の注目度): 88.49030739715701
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A diffusion probabilistic model (DPM), which constructs a forward diffusion
process by gradually adding noise to data points and learns the reverse
denoising process to generate new samples, has been shown to handle complex
data distribution. Despite its recent success in image synthesis, applying DPMs
to video generation is still challenging due to high-dimensional data spaces.
Previous methods usually adopt a standard diffusion process, where frames in
the same video clip are destroyed with independent noises, ignoring the content
redundancy and temporal correlation. This work presents a decomposed diffusion
process via resolving the per-frame noise into a base noise that is shared
among all frames and a residual noise that varies along the time axis. The
denoising pipeline employs two jointly-learned networks to match the noise
decomposition accordingly. Experiments on various datasets confirm that our
approach, termed as VideoFusion, surpasses both GAN-based and diffusion-based
alternatives in high-quality video generation. We further show that our
decomposed formulation can benefit from pre-trained image diffusion models and
well-support text-conditioned video creation.
- Abstract(参考訳): データポイントに徐々にノイズを付加して前方拡散過程を構築する拡散確率モデル (DPM) は、新しいサンプルを生成するために逆復調過程を学習し、複雑なデータ分布を扱うことを示した。
最近の画像合成の成功にもかかわらず、高次元データ空間のため、ビデオ生成にDPMを適用することは依然として困難である。
従来の方法は標準拡散プロセスを採用しており、同じビデオクリップ内のフレームが独立したノイズで破壊され、コンテンツの冗長性と時間的相関が無視される。
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。
ノイズ除去パイプラインは、ノイズ分解に適合する2つの協調学習ネットワークを用いる。
各種データセットを用いた実験により, 高品質ビデオ生成において, 提案手法がganベースと拡散ベースの両方の選択肢を上回っていることを確認した。
さらに, 画像拡散モデルの事前学習と, テキスト条件付きビデオ生成の有効性を示す。
関連論文リスト
- SF-V: Single Forward Video Generation Model [57.292575082410785]
そこで本稿では,単段階ビデオ生成モデルを得るための新しい手法を提案する。
実験により,提案手法は計算オーバーヘッドを大幅に低減した合成ビデオの競合生成品質を実現することを示す。
論文 参考訳(メタデータ) (2024-06-06T17:58:27Z) - Consistent Diffusion Meets Tweedie: Training Exact Ambient Diffusion Models with Noisy Data [74.2507346810066]
アンビエント拡散(アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散
本稿では,ノイズの多い学習データのみを考慮し,故障のない分布から確実にサンプルを採取する拡散モデルのトレーニングのための最初のフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-20T14:22:12Z) - Denoising Diffusion Bridge Models [54.87947768074036]
拡散モデルは、プロセスを使用してデータにノイズをマッピングする強力な生成モデルである。
画像編集のような多くのアプリケーションでは、モデル入力はランダムノイズではない分布から来る。
本研究では, DDBM(Denoising Diffusion Bridge Models)を提案する。
論文 参考訳(メタデータ) (2023-09-29T03:24:24Z) - APLA: Additional Perturbation for Latent Noise with Adversarial Training Enables Consistency [9.07931905323022]
拡散モデルに基づく新しいテキスト・ツー・ビデオ(T2V)生成ネットワーク構造を提案する。
提案手法では,1本の動画を入力として必要とせず,事前学習した安定拡散ネットワーク上に構築する。
我々は、変換器と畳み込みのハイブリッドアーキテクチャを活用して、時間的複雑さを補償し、ビデオ内の異なるフレーム間の一貫性を向上させる。
論文 参考訳(メタデータ) (2023-08-24T07:11:00Z) - Nested Diffusion Processes for Anytime Image Generation [38.84966342097197]
そこで本研究では,任意の時間に任意の時間に停止した場合に,有効画像を生成することができるリアルタイム拡散法を提案する。
ImageNetとStable Diffusionを用いたテキスト・ツー・イメージ生成実験において,本手法の中間生成品質が元の拡散モデルよりも大幅に高いことを示す。
論文 参考訳(メタデータ) (2023-05-30T14:28:43Z) - Subspace Diffusion Generative Models [4.310834990284412]
スコアベースモデルは、高次元拡散過程を通じて、ノイズをデータにマッピングすることでサンプルを生成する。
データ分布がノイズに向かって進化するにつれて、射影による部分空間への拡散を制限する。
私たちのフレームワークは継続的拡散と完全に互換性があり、柔軟性を維持しています。
論文 参考訳(メタデータ) (2022-05-03T13:43:47Z) - Dynamic Dual-Output Diffusion Models [100.32273175423146]
反復分解に基づく生成は、他の生成モデルのクラスに匹敵する品質を示すことが示されている。
この方法の大きな欠点は、競合する結果を生み出すために数百のイテレーションが必要であることである。
近年の研究では、より少ないイテレーションでより高速に生成できるソリューションが提案されているが、画像の品質は徐々に低下している。
論文 参考訳(メタデータ) (2022-03-08T11:20:40Z) - Truncated Diffusion Probabilistic Models and Diffusion-based Adversarial
Auto-Encoders [137.1060633388405]
拡散に基づく生成モデルは、逆拡散連鎖を推論してデータを生成する方法を学ぶ。
我々は、データが純粋なランダムノイズになるまで、より高速で安価にノイズを付加するアプローチを提案する。
提案手法は,拡散過程と学習可能な暗黙的前処理の両方によって付与された逆自動エンコーダとしてキャスト可能であることを示す。
論文 参考訳(メタデータ) (2022-02-19T20:18:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。