論文の概要: Decomposed Diffusion Models for High-Quality Video Generation
- arxiv url: http://arxiv.org/abs/2303.08320v1
- Date: Wed, 15 Mar 2023 02:16:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 15:06:39.029387
- Title: Decomposed Diffusion Models for High-Quality Video Generation
- Title(参考訳): 高画質ビデオ生成のための分解拡散モデル
- Authors: Zhengxiong Luo, Dayou Chen, Yingya Zhang, Yan Huang, Liang Wang, Yujun
Shen, Deli Zhao, Jinren Zhou, Tieniu Tan
- Abstract要約: データ点にノイズを徐々に加えることで前方拡散過程を構築する拡散確率モデル(DPM)が、複雑なデータ分布を扱うために示されている。
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。
様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
- 参考スコア(独自算出の注目度): 64.4505602989518
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A diffusion probabilistic model (DPM), which constructs a forward diffusion
process by gradually adding noise to data points and learns the reverse
denoising process to generate new samples, has been shown to handle complex
data distribution. Despite its recent success in image synthesis, applying DPMs
to video generation is still challenging due to the high dimensional data
space. Previous methods usually adopt a standard diffusion process, where
frames in the same video clip are destroyed with independent noises, ignoring
the content redundancy and temporal correlation. This work presents a
decomposed diffusion process via resolving the per-frame noise into a base
noise that is shared among all frames and a residual noise that varies along
the time axis. The denoising pipeline employs two jointly-learned networks to
match the noise decomposition accordingly. Experiments on various datasets
confirm that our approach, termed as VideoFusion, surpasses both GAN-based and
diffusion-based alternatives in high-quality video generation. We further show
that our decomposed formulation can benefit from pre-trained image diffusion
models and well-support text-conditioned video creation.
- Abstract(参考訳): データポイントに徐々にノイズを付加して前方拡散過程を構築する拡散確率モデル (DPM) は、新しいサンプルを生成するために逆復調過程を学習し、複雑なデータ分布を扱うことを示した。
最近の画像合成の成功にもかかわらず、高次元データ空間のため、ビデオ生成にDPMを適用することは依然として困難である。
従来の方法は標準拡散プロセスを採用しており、同じビデオクリップ内のフレームが独立したノイズで破壊され、コンテンツの冗長性と時間的相関が無視される。
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。
ノイズ除去パイプラインは、ノイズ分解に適合する2つの協調学習ネットワークを用いる。
各種データセットを用いた実験により, 高品質ビデオ生成において, 提案手法がganベースと拡散ベースの両方の選択肢を上回っていることを確認した。
さらに, 画像拡散モデルの事前学習と, テキスト条件付きビデオ生成の有効性を示す。
関連論文リスト
- ShiftDDPMs: Exploring Conditional Diffusion Models by Shifting Diffusion
Trajectories [144.03939123870416]
本稿では,前処理に条件を導入することで,新しい条件拡散モデルを提案する。
いくつかのシフト規則に基づいて各条件に対して排他的拡散軌跡を割り当てるために、余剰潜在空間を用いる。
我々は textbfShiftDDPMs と呼ぶメソッドを定式化し、既存のメソッドの統一的な視点を提供する。
論文 参考訳(メタデータ) (2023-02-05T12:48:21Z) - Image Embedding for Denoising Generative Models [0.0]
逆拡散過程の決定論的性質から拡散入射モデルに着目する。
本研究の副次として,拡散モデルの潜伏空間の構造についてより深い知見を得た。
論文 参考訳(メタデータ) (2022-12-30T17:56:07Z) - Difformer: Empowering Diffusion Model on Embedding Space for Text
Generation [41.2676069579214]
連続データ空間と埋め込み空間の違いは拡散モデルに挑戦を引き起こす。
本稿では, アンカー損失関数, 埋め込み用層正規化モジュール, ガウス雑音の正規化を含む3つの手法からなるDifformerを提案する。
その結果,Difformer は自己回帰ベースラインと競合する結果を得る一方で,埋込拡散ベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2022-12-19T12:44:25Z) - Markup-to-Image Diffusion Models with Scheduled Sampling [111.30188533324954]
画像生成の最近の進歩に基づき,画像にマークアップを描画するためのデータ駆動型アプローチを提案する。
このアプローチは拡散モデルに基づいており、デノナイジング操作のシーケンスを用いてデータの分布をパラメータ化する。
数式(La)、テーブルレイアウト(HTML)、シート音楽(LilyPond)、分子画像(SMILES)の4つのマークアップデータセットの実験を行った。
論文 参考訳(メタデータ) (2022-10-11T04:56:12Z) - Subspace Diffusion Generative Models [4.310834990284412]
スコアベースモデルは、高次元拡散過程を通じて、ノイズをデータにマッピングすることでサンプルを生成する。
データ分布がノイズに向かって進化するにつれて、射影による部分空間への拡散を制限する。
私たちのフレームワークは継続的拡散と完全に互換性があり、柔軟性を維持しています。
論文 参考訳(メタデータ) (2022-05-03T13:43:47Z) - Coarse-to-Fine Video Denoising with Dual-Stage Spatial-Channel
Transformer [29.03463312813923]
Video Denoisingは、ノイズの多いビデオから高品質なフレームを復元することを目的としている。
既存のほとんどのアプローチでは、畳み込みニューラルネットワーク(CNN)を使用して、ノイズを元の視覚コンテンツから分離する。
粗大な映像をデノナイズするためのDual-stage Spatial-Channel Transformer (DSCT)を提案する。
論文 参考訳(メタデータ) (2022-04-30T09:01:21Z) - Dynamic Dual-Output Diffusion Models [100.32273175423146]
反復分解に基づく生成は、他の生成モデルのクラスに匹敵する品質を示すことが示されている。
この方法の大きな欠点は、競合する結果を生み出すために数百のイテレーションが必要であることである。
近年の研究では、より少ないイテレーションでより高速に生成できるソリューションが提案されているが、画像の品質は徐々に低下している。
論文 参考訳(メタデータ) (2022-03-08T11:20:40Z) - Non Gaussian Denoising Diffusion Models [91.22679787578438]
ガンマ分布からのノイズは、画像および音声生成のための改善された結果をもたらすことを示す。
また,拡散過程におけるガウス雑音の混合を用いることで,単一分布に基づく拡散過程における性能が向上することを示す。
論文 参考訳(メタデータ) (2021-06-14T16:42:43Z) - Learning Spatial and Spatio-Temporal Pixel Aggregations for Image and
Video Denoising [104.59305271099967]
ピクセル集計ネットワークを提示し、画像デノイジングのためのピクセルサンプリングと平均戦略を学びます。
時間空間にまたがるサンプル画素をビデオデノナイズするための画素集約ネットワークを開発した。
本手法は,動的シーンにおける大きな動きに起因する誤認問題を解決することができる。
論文 参考訳(メタデータ) (2021-01-26T13:00:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。