論文の概要: Global Context with Discrete Diffusion in Vector Quantised Modelling for
Image Generation
- arxiv url: http://arxiv.org/abs/2112.01799v1
- Date: Fri, 3 Dec 2021 09:09:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-06 21:56:51.964249
- Title: Global Context with Discrete Diffusion in Vector Quantised Modelling for
Image Generation
- Title(参考訳): 画像生成のためのベクトル量子モデリングにおける離散拡散を伴う大域的文脈
- Authors: Minghui Hu, Yujie Wang, Tat-Jen Cham, Jianfei Yang, P.N.Suganthan
- Abstract要約: ベクトル量子変分オートエンコーダと自己回帰モデルとを生成部として統合することにより、画像生成における高品質な結果が得られる。
本稿では,VQ-VAEからのコンテンツリッチな離散視覚コードブックの助けを借りて,この離散拡散モデルにより,グローバルな文脈で高忠実度画像を生成することができることを示す。
- 参考スコア(独自算出の注目度): 19.156223720614186
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The integration of Vector Quantised Variational AutoEncoder (VQ-VAE) with
autoregressive models as generation part has yielded high-quality results on
image generation. However, the autoregressive models will strictly follow the
progressive scanning order during the sampling phase. This leads the existing
VQ series models to hardly escape the trap of lacking global information.
Denoising Diffusion Probabilistic Models (DDPM) in the continuous domain have
shown a capability to capture the global context, while generating high-quality
images. In the discrete state space, some works have demonstrated the potential
to perform text generation and low resolution image generation. We show that
with the help of a content-rich discrete visual codebook from VQ-VAE, the
discrete diffusion model can also generate high fidelity images with global
context, which compensates for the deficiency of the classical autoregressive
model along pixel space. Meanwhile, the integration of the discrete VAE with
the diffusion model resolves the drawback of conventional autoregressive models
being oversized, and the diffusion model which demands excessive time in the
sampling process when generating images. It is found that the quality of the
generated images is heavily dependent on the discrete visual codebook.
Extensive experiments demonstrate that the proposed Vector Quantised Discrete
Diffusion Model (VQ-DDM) is able to achieve comparable performance to top-tier
methods with low complexity. It also demonstrates outstanding advantages over
other vectors quantised with autoregressive models in terms of image inpainting
tasks without additional training.
- Abstract(参考訳): ベクトル量子変分オートエンコーダ(VQ-VAE)と自己回帰モデルとを生成部として統合することにより、画像生成における高品質な結果が得られる。
しかし、自己回帰モデルでは、サンプリングフェーズの進行走査順序に厳密に従う。
これにより、既存のVQシリーズモデルは、グローバル情報不足の罠からほとんど逃れられなくなる。
連続領域における拡散確率モデル(ddpm)は、高品質な画像を生成しながら、グローバルコンテキストをキャプチャする能力を示している。
離散状態空間では、テキスト生成と低解像度画像生成を行う可能性を示す研究もある。
本稿では,VQ-VAEによるコンテンツリッチな離散視覚コードブックを用いて,画素空間に沿った古典的自己回帰モデルの欠如を補う,グローバルコンテキストによる高忠実度画像を生成することができることを示す。
一方、離散VAEと拡散モデルの統合により、従来の自己回帰モデルの欠点が大きすぎることや、画像を生成する際にサンプリングプロセスに過剰な時間を要する拡散モデルが解決される。
生成した画像の品質は、離散的な視覚コードブックに大きく依存していることがわかった。
拡張実験により、提案したベクトル量子離散拡散モデル(VQ-DDM)は、複雑さの低い上位層法に匹敵する性能が得られることが示された。
また、追加のトレーニング無しで、自己回帰モデルで定量化された他のベクターよりも優れた効果を示す。
関連論文リスト
- MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。
MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.06970466554273]
SDXLのような最先端拡散モデルに匹敵するレベルまで、非自己回帰マスク型画像モデリング(MIM)のテキスト・ツー・イメージが増大するMeissonicを提案する。
高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いて画像の忠実度と解像度をさらに向上する。
我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文 参考訳(メタデータ) (2024-10-10T17:59:17Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Deep Equilibrium Approaches to Diffusion Models [1.4275201654498746]
拡散に基づく生成モデルは高品質な画像を生成するのに極めて効果的である。
これらのモデルは通常、高忠実度画像を生成するために長いサンプリングチェーンを必要とする。
我々は、異なる観点からの拡散モデル、すなわち(深い)平衡(DEQ)固定点モデルについて考察する。
論文 参考訳(メタデータ) (2022-10-23T22:02:19Z) - Auto-regressive Image Synthesis with Integrated Quantization [55.51231796778219]
本稿では,条件付き画像生成のための多目的フレームワークを提案する。
CNNの帰納バイアスと自己回帰の強力なシーケンスモデリングが組み込まれている。
提案手法は,最先端技術と比較して,優れた多彩な画像生成性能を実現する。
論文 参考訳(メタデータ) (2022-07-21T22:19:17Z) - DiVAE: Photorealistic Images Synthesis with Denoising Diffusion Decoder [73.1010640692609]
本稿では,拡散デコーダ(DiVAE)を用いたVQ-VAEアーキテクチャモデルを提案する。
我々のモデルは最先端の成果を達成し、さらに多くのフォトリアリスティックな画像を生成する。
論文 参考訳(メタデータ) (2022-06-01T10:39:12Z) - DiffuseVAE: Efficient, Controllable and High-Fidelity Generation from
Low-Dimensional Latents [26.17940552906923]
本稿では,拡散モデルフレームワーク内にVAEを統合する新しい生成フレームワークであるDiffuseVAEを紹介する。
提案モデルは高分解能サンプルを生成でき、標準ベンチマークの最先端モデルに匹敵する品質を示す。
論文 参考訳(メタデータ) (2022-01-02T06:44:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。