Fugu-MT 論文翻訳(概要): DiVAE: Photorealistic Images Synthesis with Denoising Diffusion Decoder

論文の概要: DiVAE: Photorealistic Images Synthesis with Denoising Diffusion Decoder

arxiv url: http://arxiv.org/abs/2206.00386v1
Date: Wed, 1 Jun 2022 10:39:12 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-02 15:47:53.299236
Title: DiVAE: Photorealistic Images Synthesis with Denoising Diffusion Decoder
Title（参考訳）: DiVAE: Denoising Diffusion Decoderを用いたフォトリアリスティック画像合成
Authors: Jie Shi, Chenfei Wu, Jian Liang, Xiang Liu, Nan Duan
Abstract要約: 本稿では,拡散デコーダ(DiVAE)を用いたVQ-VAEアーキテクチャモデルを提案する。我々のモデルは最先端の成果を達成し、さらに多くのフォトリアリスティックな画像を生成する。
参考スコア（独自算出の注目度）: 73.1010640692609
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently most successful image synthesis models are multi stage process to combine the advantages of different methods, which always includes a VAE-like model for faithfully reconstructing embedding to image and a prior model to generate image embedding. At the same time, diffusion models have shown be capacity to generate high-quality synthetic images. Our work proposes a VQ-VAE architecture model with a diffusion decoder (DiVAE) to work as the reconstructing component in image synthesis. We explore how to input image embedding into diffusion model for excellent performance and find that simple modification on diffusion's UNet can achieve it. Training on ImageNet, Our model achieves state-of-the-art results and generates more photorealistic images specifically. In addition, we apply the DiVAE with an Auto-regressive generator on conditional synthesis tasks to perform more human-feeling and detailed samples.
Abstract（参考訳）: 近年、最も成功した画像合成モデルは、画像への埋め込みを忠実に再構築するvaeライクなモデルと、画像埋め込みを生成する前のモデルを含む、異なる方法の利点を組み合わせるための多段階プロセスである。同時に、拡散モデルは高品質な合成画像を生成する能力を示している。本稿では,拡散デコーダ(DiVAE)を用いたVQ-VAEアーキテクチャモデルを提案する。我々は,拡散モデルに画像埋め込みを入力して優れた性能を得る方法について検討し,拡散のunetに対する簡単な修正が実現できることを見いだす。 ImageNetをトレーニングし、現状の成果を達成し、さらに多くのフォトリアリスティック画像を生成する。さらに,条件合成タスクに対して自己回帰生成器をdivaeに適用し,より人力で詳細なサンプル処理を行う。

関連論文リスト

Boosting Generative Image Modeling via Joint Image-Feature Synthesis [10.32324138962724]
低レベル画像潜在者を共同でモデル化するために拡散モデルを活用することで、ギャップをシームレスに橋渡しする新しい生成画像モデリングフレームワークを提案する。我々の潜在セマンティック拡散アプローチは、純雑音からコヒーレントな画像-特徴対を生成することを学ぶ。複雑な蒸留目的の必要をなくすことで、我々の統一設計は訓練を単純化し、強力な新しい推論戦略である表現誘導を解き放つ。
論文参考訳（メタデータ） (2025-04-22T17:41:42Z)
Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.06970466554273]
SDXLのような最先端拡散モデルに匹敵するレベルまで、非自己回帰マスク型画像モデリング(MIM)のテキスト・ツー・イメージが増大するMeissonicを提案する。高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いて画像の忠実度と解像度をさらに向上する。我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文参考訳（メタデータ） (2024-10-10T17:59:17Z)
Diversify, Don't Fine-Tune: Scaling Up Visual Recognition Training with Synthetic Images [37.29348016920314]
そこで本研究では,既製の生成モデルを利用して合成訓練画像を生成する新しいフレームワークを提案する。クラス名の曖昧さ、ナイーブなプロンプトの多様性の欠如、ドメインシフトに対処する。我々のフレームワークは、より合成データによる認識モデルの性能を一貫して向上させる。
論文参考訳（メタデータ） (2023-12-04T18:35:27Z)
SODA: Bottleneck Diffusion Models for Representation Learning [75.7331354734152]
本稿では,表現学習のための自己教師付き拡散モデルSODAを紹介する。このモデルには、ソースビューをコンパクトな表現に蒸留するイメージエンコーダが組み込まれており、関連する新規ビューの生成を導く。エンコーダと復調復調復調復調復調復調復調復調復号器の密集ボトルネックを付与することにより,拡散モデルを強力な表現学習器に変換することができることを示す。
論文参考訳（メタデータ） (2023-11-29T18:53:34Z)
Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文参考訳（メタデータ） (2023-09-30T02:03:22Z)
Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。 2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文参考訳（メタデータ） (2022-11-22T18:59:50Z)
Semantic Image Synthesis with Semantically Coupled VQ-Model [42.19799555533789]
本稿では,ベクトル量子化モデル (VQ-model) から遅延空間を条件付きで合成する。本モデルは,ADE20k,Cityscapes,COCO-Stuffといった人気セマンティック画像データセットを用いた自己回帰モデルを用いて,セマンティック画像合成を改善することを示す。
論文参考訳（メタデータ） (2022-09-06T14:37:01Z)
Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文参考訳（メタデータ） (2022-06-30T18:31:51Z)
DiffuseVAE: Efficient, Controllable and High-Fidelity Generation from Low-Dimensional Latents [26.17940552906923]
本稿では,拡散モデルフレームワーク内にVAEを統合する新しい生成フレームワークであるDiffuseVAEを紹介する。提案モデルは高分解能サンプルを生成でき、標準ベンチマークの最先端モデルに匹敵する品質を示す。
論文参考訳（メタデータ） (2022-01-02T06:44:23Z)
High-Resolution Image Synthesis with Latent Diffusion Models [14.786952412297808]
オートエンコーダ上での拡散モデルの訓練は、複雑性の低減と詳細保存の間のほぼ最適点に初めて到達することができる。我々の潜伏拡散モデル(LDMs)は,様々なタスクにおける画像インペイントと高い競争性能の新たな技術を実現する。
論文参考訳（メタデータ） (2021-12-20T18:55:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。