論文の概要: DiffuseVAE: Efficient, Controllable and High-Fidelity Generation from
Low-Dimensional Latents
- arxiv url: http://arxiv.org/abs/2201.00308v1
- Date: Sun, 2 Jan 2022 06:44:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-04 14:00:57.841683
- Title: DiffuseVAE: Efficient, Controllable and High-Fidelity Generation from
Low-Dimensional Latents
- Title(参考訳): DiffuseVAE:低次元潜水剤の効率的・制御可能・高忠実化
- Authors: Kushagra Pandey, Avideep Mukherjee, Piyush Rai, Abhishek Kumar
- Abstract要約: 本稿では,拡散モデルフレームワーク内にVAEを統合する新しい生成フレームワークであるDiffuseVAEを紹介する。
提案モデルは高分解能サンプルを生成でき、標準ベンチマークの最先端モデルに匹敵する品質を示す。
- 参考スコア(独自算出の注目度): 26.17940552906923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Probabilistic models have been shown to generate state-of-the-art
results on several competitive image synthesis benchmarks but lack a
low-dimensional, interpretable latent space, and are slow at generation. On the
other hand, Variational Autoencoders (VAEs) typically have access to a
low-dimensional latent space but exhibit poor sample quality. Despite recent
advances, VAEs usually require high-dimensional hierarchies of the latent codes
to generate high-quality samples. We present DiffuseVAE, a novel generative
framework that integrates VAE within a diffusion model framework, and leverage
this to design a novel conditional parameterization for diffusion models. We
show that the resulting model can improve upon the unconditional diffusion
model in terms of sampling efficiency while also equipping diffusion models
with the low-dimensional VAE inferred latent code. Furthermore, we show that
the proposed model can generate high-resolution samples and exhibits synthesis
quality comparable to state-of-the-art models on standard benchmarks. Lastly,
we show that the proposed method can be used for controllable image synthesis
and also exhibits out-of-the-box capabilities for downstream tasks like image
super-resolution and denoising. For reproducibility, our source code is
publicly available at \url{https://github.com/kpandey008/DiffuseVAE}.
- Abstract(参考訳): 拡散確率モデルは、いくつかの競合画像合成ベンチマークで最先端の結果を生成することが示されているが、低次元で解釈可能な潜在空間がなく、生成が遅い。
一方、変分オートエンコーダ(vaes)は典型的には低次元の潜在空間にアクセスできるが、サンプル品質は乏しい。
近年の進歩にもかかわらず、VAEは通常、高品質なサンプルを生成するために潜伏符号の高次元階層を必要とする。
本稿では,拡散モデルフレームワークにVAEを統合する新しい生成フレームワークであるDiffuseVAEについて述べる。
提案手法は,低次元VAE推論潜時符号を用いた拡散モデルを用いて,サンプリング効率の観点から非条件拡散モデルを改善することができることを示す。
さらに,提案モデルが高分解能サンプルを生成でき,標準ベンチマークにおける最先端モデルに匹敵する合成品質を示すことを示す。
最後に,提案手法は制御可能な画像合成に利用でき,画像の超解像や復調といった下流タスクのアウト・オブ・ボックス機能を示す。
再現性のため、ソースコードは \url{https://github.com/kpandey008/diffusevae} で公開されている。
関連論文リスト
- Exploring Representation-Aligned Latent Space for Better Generation [86.45670422239317]
生成性能を改善するために,セマンティックな事前情報を統合するReaLSを導入する。
本研究では、ReaLSでトレーニングされたDETとSiTが、FID測定値の15%改善を実現することを示す。
拡張されたセマンティック潜在空間は、セグメンテーションや深さ推定のようなより知覚的な下流タスクを可能にする。
論文 参考訳(メタデータ) (2025-02-01T07:42:12Z) - Autoregressive Video Generation without Vector Quantization [90.87907377618747]
本研究では,時間フレーム毎の予測の非量子化自己回帰モデルとしてビデオ生成問題を再構成する。
提案手法では,ベクトル量子化のない新しい自己回帰モデルであるNOVAを訓練する。
以上の結果から,NOVAはデータ効率,推論速度,視覚的忠実度,映像流速において,従来の自己回帰ビデオモデルよりもはるかに小さいモデルキャパシティを有することがわかった。
論文 参考訳(メタデータ) (2024-12-18T18:59:53Z) - Advancing Diffusion Models: Alias-Free Resampling and Enhanced Rotational Equivariance [0.0]
拡散モデルは、モデルによって引き起こされたアーティファクトと、画像の忠実性に制限された安定性によって、依然として挑戦されている。
拡散モデルのUNetアーキテクチャにエイリアスフリー再サンプリング層を統合することを提案する。
CIFAR-10, MNIST, MNIST-Mなどのベンチマークデータを用いた実験の結果, 画像品質が一貫した向上を示した。
論文 参考訳(メタデータ) (2024-11-14T04:23:28Z) - Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。
我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:25:56Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Fast Inference in Denoising Diffusion Models via MMD Finetuning [23.779985842891705]
拡散モデルの高速サンプリング法であるMDD-DDMを提案する。
我々のアプローチは、学習した分布を所定の予算のタイムステップで微調整するために、最大平均離散性(MMD)を使用するという考え方に基づいている。
提案手法は,広範に普及した拡散モデルで要求されるわずかな時間で高品質なサンプルを生成できることが示唆された。
論文 参考訳(メタデータ) (2023-01-19T09:48:07Z) - DiVAE: Photorealistic Images Synthesis with Denoising Diffusion Decoder [73.1010640692609]
本稿では,拡散デコーダ(DiVAE)を用いたVQ-VAEアーキテクチャモデルを提案する。
我々のモデルは最先端の成果を達成し、さらに多くのフォトリアリスティックな画像を生成する。
論文 参考訳(メタデータ) (2022-06-01T10:39:12Z) - Global Context with Discrete Diffusion in Vector Quantised Modelling for
Image Generation [19.156223720614186]
ベクトル量子変分オートエンコーダと自己回帰モデルとを生成部として統合することにより、画像生成における高品質な結果が得られる。
本稿では,VQ-VAEからのコンテンツリッチな離散視覚コードブックの助けを借りて,この離散拡散モデルにより,グローバルな文脈で高忠実度画像を生成することができることを示す。
論文 参考訳(メタデータ) (2021-12-03T09:09:34Z) - Variational Diffusion Models [33.0719137062396]
本稿では,画像密度推定ベンチマークの最先端可能性を求める拡散モデルについて紹介する。
差分下界 (VLB) は, 拡散したデータの信号対雑音比において, 著しく短い表現に単純化されることを示す。
論文 参考訳(メタデータ) (2021-07-01T17:43:20Z) - Denoising Diffusion Probabilistic Models [91.94962645056896]
拡散確率モデルを用いて高品質な画像合成結果を示す。
本研究は,拡散確率モデルとランゲヴィン力学と整合したデノイングスコアとの新たな接続に基づいて設計した重み付き変分境界のトレーニングにより得られた。
論文 参考訳(メタデータ) (2020-06-19T17:24:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。