論文の概要: Diffusion Probabilistic Modeling for Video Generation
- arxiv url: http://arxiv.org/abs/2203.09481v1
- Date: Wed, 16 Mar 2022 03:52:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-18 13:04:01.570567
- Title: Diffusion Probabilistic Modeling for Video Generation
- Title(参考訳): 拡散確率モデルによる映像生成
- Authors: Ruihan Yang, Prakhar Srivastava, Stephan Mandt
- Abstract要約: 拡散確率モデルは、知覚メトリクス上のGANと競合する新しい生成モデルである。
ニューラルビデオ圧縮の最近の進歩にインスパイアされた我々は、デノナイジング拡散モデルを使用して、決定論的次フレーム予測に残留するベースラインを生成する。
複雑な高解像度ビデオのフレーム予測において,すべてのデータに対する知覚的品質の面での大幅な改善と,その改善が期待できる。
- 参考スコア(独自算出の注目度): 17.48026395867434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Denoising diffusion probabilistic models are a promising new class of
generative models that are competitive with GANs on perceptual metrics. In this
paper, we explore their potential for sequentially generating video. Inspired
by recent advances in neural video compression, we use denoising diffusion
models to stochastically generate a residual to a deterministic next-frame
prediction. We compare this approach to two sequential VAE and two GAN
baselines on four datasets, where we test the generated frames for perceptual
quality and forecasting accuracy against ground truth frames. We find
significant improvements in terms of perceptual quality on all data and
improvements in terms of frame forecasting for complex high-resolution videos.
- Abstract(参考訳): デノージング拡散確率モデル(denoising diffusion probabilistic models)は、知覚メトリクスにおいてganと競合する有望な新しい生成モデルである。
本稿では,ビデオの逐次生成の可能性について考察する。
近年のニューラルビデオ圧縮の進展に触発されて,分極拡散モデルを用いて決定論的次のフレーム予測の残差を確率的に生成する。
このアプローチを、4つのデータセット上で2つの逐次VAEと2つのGANベースラインと比較し、生成されたフレームを知覚品質と地上の真理フレームに対する予測精度でテストする。
複雑な高解像度ビデオのフレーム予測において,すべてのデータに対する知覚品質の面での大幅な改善と,その改善が期待できる。
関連論文リスト
- Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Adversarial Training of Denoising Diffusion Model Using Dual
Discriminators for High-Fidelity Multi-Speaker TTS [0.0]
拡散モデルは確率論的アプローチにより高品質なデータを生成することができる。
これは、多くの時間ステップを必要とするため、生成速度が遅くなるという欠点に悩まされる。
本稿では、逆過程の分布を学習する拡散判別器と、生成されたデータの分布を学習するスペクトログラム判別器の2つの識別器を用いた音声合成モデルを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:22:04Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - VideoFusion: Decomposed Diffusion Models for High-Quality Video
Generation [88.49030739715701]
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。
様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
論文 参考訳(メタデータ) (2023-03-15T02:16:39Z) - Insights from Generative Modeling for Neural Video Compression [31.59496634465347]
本稿では,深部自己回帰・潜時可変モデリングのレンズを用いたニューラルビデオ符号化アルゴリズムを提案する。
本稿では,高解像度映像に対して最先端の映像圧縮性能を実現するアーキテクチャを提案する。
さらに、生成的モデリングの観点から、ニューラルビデオ符号化の分野を前進させることができることを示す。
論文 参考訳(メタデータ) (2021-07-28T02:19:39Z) - Variational Diffusion Models [33.0719137062396]
本稿では,画像密度推定ベンチマークの最先端可能性を求める拡散モデルについて紹介する。
差分下界 (VLB) は, 拡散したデータの信号対雑音比において, 著しく短い表現に単純化されることを示す。
論文 参考訳(メタデータ) (2021-07-01T17:43:20Z) - Anomaly Detection of Time Series with Smoothness-Inducing Sequential
Variational Auto-Encoder [59.69303945834122]
Smoothness-Inducing Sequential Variational Auto-Encoder (SISVAE) モデルを提案する。
我々のモデルは、フレキシブルニューラルネットワークを用いて各タイムスタンプの平均と分散をパラメータ化する。
合成データセットと公開実世界のベンチマークの両方において,本モデルの有効性を示す。
論文 参考訳(メタデータ) (2021-02-02T06:15:15Z) - Score-Based Generative Modeling through Stochastic Differential
Equations [114.39209003111723]
複素データ分布を雑音を注入することによって既知の事前分布に変換する微分方程式を提案する。
対応する逆時間SDEは、ノイズを緩やかに除去し、先行分布をデータ分布に戻す。
スコアベース生成モデリングの進歩を活用することで、これらのスコアをニューラルネットワークで正確に推定することができる。
スコアベース生成モデルから1024×1024画像の高忠実度生成を初めて示す。
論文 参考訳(メタデータ) (2020-11-26T19:39:10Z) - Denoising Diffusion Probabilistic Models [91.94962645056896]
拡散確率モデルを用いて高品質な画像合成結果を示す。
本研究は,拡散確率モデルとランゲヴィン力学と整合したデノイングスコアとの新たな接続に基づいて設計した重み付き変分境界のトレーニングにより得られた。
論文 参考訳(メタデータ) (2020-06-19T17:24:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。