論文の概要: DiVAE: Photorealistic Images Synthesis with Denoising Diffusion Decoder
- arxiv url: http://arxiv.org/abs/2206.00386v1
- Date: Wed, 1 Jun 2022 10:39:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-02 15:47:53.299236
- Title: DiVAE: Photorealistic Images Synthesis with Denoising Diffusion Decoder
- Title(参考訳): DiVAE: Denoising Diffusion Decoderを用いたフォトリアリスティック画像合成
- Authors: Jie Shi, Chenfei Wu, Jian Liang, Xiang Liu, Nan Duan
- Abstract要約: 本稿では,拡散デコーダ(DiVAE)を用いたVQ-VAEアーキテクチャモデルを提案する。
我々のモデルは最先端の成果を達成し、さらに多くのフォトリアリスティックな画像を生成する。
- 参考スコア(独自算出の注目度): 73.1010640692609
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently most successful image synthesis models are multi stage process to
combine the advantages of different methods, which always includes a VAE-like
model for faithfully reconstructing embedding to image and a prior model to
generate image embedding. At the same time, diffusion models have shown be
capacity to generate high-quality synthetic images. Our work proposes a VQ-VAE
architecture model with a diffusion decoder (DiVAE) to work as the
reconstructing component in image synthesis. We explore how to input image
embedding into diffusion model for excellent performance and find that simple
modification on diffusion's UNet can achieve it. Training on ImageNet, Our
model achieves state-of-the-art results and generates more photorealistic
images specifically. In addition, we apply the DiVAE with an Auto-regressive
generator on conditional synthesis tasks to perform more human-feeling and
detailed samples.
- Abstract(参考訳): 近年、最も成功した画像合成モデルは、画像への埋め込みを忠実に再構築するvaeライクなモデルと、画像埋め込みを生成する前のモデルを含む、異なる方法の利点を組み合わせるための多段階プロセスである。
同時に、拡散モデルは高品質な合成画像を生成する能力を示している。
本稿では,拡散デコーダ(DiVAE)を用いたVQ-VAEアーキテクチャモデルを提案する。
我々は,拡散モデルに画像埋め込みを入力して優れた性能を得る方法について検討し,拡散のunetに対する簡単な修正が実現できることを見いだす。
ImageNetをトレーニングし、現状の成果を達成し、さらに多くのフォトリアリスティック画像を生成する。
さらに,条件合成タスクに対して自己回帰生成器をdivaeに適用し,より人力で詳細なサンプル処理を行う。
関連論文リスト
- Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.06970466554273]
SDXLのような最先端拡散モデルに匹敵するレベルまで、非自己回帰マスク型画像モデリング(MIM)のテキスト・ツー・イメージが増大するMeissonicを提案する。
高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いて画像の忠実度と解像度をさらに向上する。
我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文 参考訳(メタデータ) (2024-10-10T17:59:17Z) - Diversify, Don't Fine-Tune: Scaling Up Visual Recognition Training with
Synthetic Images [37.29348016920314]
そこで本研究では,既製の生成モデルを利用して合成訓練画像を生成する新しいフレームワークを提案する。
クラス名の曖昧さ、ナイーブなプロンプトの多様性の欠如、ドメインシフトに対処する。
我々のフレームワークは、より合成データによる認識モデルの性能を一貫して向上させる。
論文 参考訳(メタデータ) (2023-12-04T18:35:27Z) - SODA: Bottleneck Diffusion Models for Representation Learning [75.7331354734152]
本稿では,表現学習のための自己教師付き拡散モデルSODAを紹介する。
このモデルには、ソースビューをコンパクトな表現に蒸留するイメージエンコーダが組み込まれており、関連する新規ビューの生成を導く。
エンコーダと復調復調復調復調復調復調復調復調復号器の密集ボトルネックを付与することにより,拡散モデルを強力な表現学習器に変換することができることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:53:34Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - Semantic Image Synthesis with Semantically Coupled VQ-Model [42.19799555533789]
本稿では,ベクトル量子化モデル (VQ-model) から遅延空間を条件付きで合成する。
本モデルは,ADE20k,Cityscapes,COCO-Stuffといった人気セマンティック画像データセットを用いた自己回帰モデルを用いて,セマンティック画像合成を改善することを示す。
論文 参考訳(メタデータ) (2022-09-06T14:37:01Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - DiffuseVAE: Efficient, Controllable and High-Fidelity Generation from
Low-Dimensional Latents [26.17940552906923]
本稿では,拡散モデルフレームワーク内にVAEを統合する新しい生成フレームワークであるDiffuseVAEを紹介する。
提案モデルは高分解能サンプルを生成でき、標準ベンチマークの最先端モデルに匹敵する品質を示す。
論文 参考訳(メタデータ) (2022-01-02T06:44:23Z) - High-Resolution Image Synthesis with Latent Diffusion Models [14.786952412297808]
オートエンコーダ上での拡散モデルの訓練は、複雑性の低減と詳細保存の間のほぼ最適点に初めて到達することができる。
我々の潜伏拡散モデル(LDMs)は,様々なタスクにおける画像インペイントと高い競争性能の新たな技術を実現する。
論文 参考訳(メタデータ) (2021-12-20T18:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。