論文の概要: DiffuseVAE: Efficient, Controllable and High-Fidelity Generation from
Low-Dimensional Latents
- arxiv url: http://arxiv.org/abs/2201.00308v1
- Date: Sun, 2 Jan 2022 06:44:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-01-04 14:00:57.841683
- Title: DiffuseVAE: Efficient, Controllable and High-Fidelity Generation from
Low-Dimensional Latents
- Title(参考訳): DiffuseVAE:低次元潜水剤の効率的・制御可能・高忠実化
- Authors: Kushagra Pandey, Avideep Mukherjee, Piyush Rai, Abhishek Kumar
- Abstract要約: 本稿では,拡散モデルフレームワーク内にVAEを統合する新しい生成フレームワークであるDiffuseVAEを紹介する。
提案モデルは高分解能サンプルを生成でき、標準ベンチマークの最先端モデルに匹敵する品質を示す。
- 参考スコア(独自算出の注目度): 26.17940552906923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Probabilistic models have been shown to generate state-of-the-art
results on several competitive image synthesis benchmarks but lack a
low-dimensional, interpretable latent space, and are slow at generation. On the
other hand, Variational Autoencoders (VAEs) typically have access to a
low-dimensional latent space but exhibit poor sample quality. Despite recent
advances, VAEs usually require high-dimensional hierarchies of the latent codes
to generate high-quality samples. We present DiffuseVAE, a novel generative
framework that integrates VAE within a diffusion model framework, and leverage
this to design a novel conditional parameterization for diffusion models. We
show that the resulting model can improve upon the unconditional diffusion
model in terms of sampling efficiency while also equipping diffusion models
with the low-dimensional VAE inferred latent code. Furthermore, we show that
the proposed model can generate high-resolution samples and exhibits synthesis
quality comparable to state-of-the-art models on standard benchmarks. Lastly,
we show that the proposed method can be used for controllable image synthesis
and also exhibits out-of-the-box capabilities for downstream tasks like image
super-resolution and denoising. For reproducibility, our source code is
publicly available at \url{https://github.com/kpandey008/DiffuseVAE}.
- Abstract(参考訳): 拡散確率モデルは、いくつかの競合画像合成ベンチマークで最先端の結果を生成することが示されているが、低次元で解釈可能な潜在空間がなく、生成が遅い。
一方、変分オートエンコーダ(vaes)は典型的には低次元の潜在空間にアクセスできるが、サンプル品質は乏しい。
近年の進歩にもかかわらず、VAEは通常、高品質なサンプルを生成するために潜伏符号の高次元階層を必要とする。
本稿では,拡散モデルフレームワークにVAEを統合する新しい生成フレームワークであるDiffuseVAEについて述べる。
提案手法は,低次元VAE推論潜時符号を用いた拡散モデルを用いて,サンプリング効率の観点から非条件拡散モデルを改善することができることを示す。
さらに,提案モデルが高分解能サンプルを生成でき,標準ベンチマークにおける最先端モデルに匹敵する合成品質を示すことを示す。
最後に,提案手法は制御可能な画像合成に利用でき,画像の超解像や復調といった下流タスクのアウト・オブ・ボックス機能を示す。
再現性のため、ソースコードは \url{https://github.com/kpandey008/diffusevae} で公開されている。
関連論文リスト
- Exploring Representation-Aligned Latent Space for Better Generation [86.45670422239317]
生成性能を改善するために,セマンティックな事前情報を統合するReaLSを導入する。
本研究では、ReaLSでトレーニングされたDETとSiTが、FID測定値の15%改善を実現することを示す。
拡張されたセマンティック潜在空間は、セグメンテーションや深さ推定のようなより知覚的な下流タスクを可能にする。
論文 参考訳(メタデータ) (2025-02-01T07:42:12Z) - Advancing Diffusion Models: Alias-Free Resampling and Enhanced Rotational Equivariance [0.0]
拡散モデルは、モデルによって引き起こされたアーティファクトと、画像の忠実性に制限された安定性によって、依然として挑戦されている。
拡散モデルのUNetアーキテクチャにエイリアスフリー再サンプリング層を統合することを提案する。
CIFAR-10, MNIST, MNIST-Mなどのベンチマークデータを用いた実験の結果, 画像品質が一貫した向上を示した。
論文 参考訳(メタデータ) (2024-11-14T04:23:28Z) - Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。
我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:25:56Z) - Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.06970466554273]
SDXLのような最先端拡散モデルに匹敵するレベルまで、非自己回帰マスク型画像モデリング(MIM)のテキスト・ツー・イメージが増大するMeissonicを提案する。
高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いて画像の忠実度と解像度をさらに向上する。
我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文 参考訳(メタデータ) (2024-10-10T17:59:17Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Fast Inference in Denoising Diffusion Models via MMD Finetuning [23.779985842891705]
拡散モデルの高速サンプリング法であるMDD-DDMを提案する。
我々のアプローチは、学習した分布を所定の予算のタイムステップで微調整するために、最大平均離散性(MMD)を使用するという考え方に基づいている。
提案手法は,広範に普及した拡散モデルで要求されるわずかな時間で高品質なサンプルを生成できることが示唆された。
論文 参考訳(メタデータ) (2023-01-19T09:48:07Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - DiVAE: Photorealistic Images Synthesis with Denoising Diffusion Decoder [73.1010640692609]
本稿では,拡散デコーダ(DiVAE)を用いたVQ-VAEアーキテクチャモデルを提案する。
我々のモデルは最先端の成果を達成し、さらに多くのフォトリアリスティックな画像を生成する。
論文 参考訳(メタデータ) (2022-06-01T10:39:12Z) - Global Context with Discrete Diffusion in Vector Quantised Modelling for
Image Generation [19.156223720614186]
ベクトル量子変分オートエンコーダと自己回帰モデルとを生成部として統合することにより、画像生成における高品質な結果が得られる。
本稿では,VQ-VAEからのコンテンツリッチな離散視覚コードブックの助けを借りて,この離散拡散モデルにより,グローバルな文脈で高忠実度画像を生成することができることを示す。
論文 参考訳(メタデータ) (2021-12-03T09:09:34Z) - Variational Diffusion Models [33.0719137062396]
本稿では,画像密度推定ベンチマークの最先端可能性を求める拡散モデルについて紹介する。
差分下界 (VLB) は, 拡散したデータの信号対雑音比において, 著しく短い表現に単純化されることを示す。
論文 参考訳(メタデータ) (2021-07-01T17:43:20Z) - Denoising Diffusion Probabilistic Models [91.94962645056896]
拡散確率モデルを用いて高品質な画像合成結果を示す。
本研究は,拡散確率モデルとランゲヴィン力学と整合したデノイングスコアとの新たな接続に基づいて設計した重み付き変分境界のトレーニングにより得られた。
論文 参考訳(メタデータ) (2020-06-19T17:24:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。