論文の概要: Vector Quantized Diffusion Model for Text-to-Image Synthesis
- arxiv url: http://arxiv.org/abs/2111.14822v1
- Date: Mon, 29 Nov 2021 18:59:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-30 15:38:15.585044
- Title: Vector Quantized Diffusion Model for Text-to-Image Synthesis
- Title(参考訳): テキスト・画像合成のためのベクトル量子拡散モデル
- Authors: Shuyang Gu, Dong Chen, Jianmin Bao, Fang Wen, Bo Zhang, Dongdong Chen,
Lu Yuan, Baining Guo
- Abstract要約: テキスト・画像生成のためのベクトル量子化拡散(VQ-Diffusion)モデルを提案する。
実験の結果,VQ-Diffusion はテキスト・画像生成結果を大幅に改善することがわかった。
- 参考スコア(独自算出の注目度): 47.09451151258849
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present the vector quantized diffusion (VQ-Diffusion) model for
text-to-image generation. This method is based on a vector quantized
variational autoencoder (VQ-VAE) whose latent space is modeled by a conditional
variant of the recently developed Denoising Diffusion Probabilistic Model
(DDPM). We find that this latent-space method is well-suited for text-to-image
generation tasks because it not only eliminates the unidirectional bias with
existing methods but also allows us to incorporate a mask-and-replace diffusion
strategy to avoid the accumulation of errors, which is a serious problem with
existing methods. Our experiments show that the VQ-Diffusion produces
significantly better text-to-image generation results when compared with
conventional autoregressive (AR) models with similar numbers of parameters.
Compared with previous GAN-based text-to-image methods, our VQ-Diffusion can
handle more complex scenes and improve the synthesized image quality by a large
margin. Finally, we show that the image generation computation in our method
can be made highly efficient by reparameterization. With traditional AR
methods, the text-to-image generation time increases linearly with the output
image resolution and hence is quite time consuming even for normal size images.
The VQ-Diffusion allows us to achieve a better trade-off between quality and
speed. Our experiments indicate that the VQ-Diffusion model with the
reparameterization is fifteen times faster than traditional AR methods while
achieving a better image quality.
- Abstract(参考訳): テキスト・画像生成のためのベクトル量子化拡散(VQ-Diffusion)モデルを提案する。
本手法は,最近開発されたDenoising Diffusion Probabilistic Model (DDPM) の条件変分により潜在空間をモデル化したベクトル量子化変分オートエンコーダ (VQ-VAE) に基づく。
この潜在空間法は,既存の手法と一方向のバイアスを取り除くだけでなく,誤りの蓄積を避けるためにマスク・アンド・リプレース拡散戦略を組み込むことができるため,テキスト対画像生成タスクに適している。
実験により, VQ-Diffusion は, パラメータ数に類似する従来の自己回帰モデルと比較して, テキスト・画像生成の精度を著しく向上することが示された。
従来のganベースのテキスト対画像法と比較して、vq-diffusionはより複雑なシーンを処理し、合成画像の品質を大きなマージンで改善できる。
最後に,本手法における画像生成計算を再パラメータ化により高効率に行えることを示す。
従来のAR手法では、出力画像の解像度によってテキスト・画像生成時間は線形に増加し、通常のサイズの画像でもかなり時間がかかる。
VQ-Diffusionによって、品質とスピードのトレードオフを改善できます。
実験の結果,再パラメータ化によるVQ拡散モデルは従来のAR手法よりも15倍高速であり,画質が向上した。
関連論文リスト
- Iterative Token Evaluation and Refinement for Real-World
Super-Resolution [77.74289677520508]
実世界の画像超解像(RWSR)は、低品質(LQ)画像が複雑で未同定の劣化を起こすため、長年にわたる問題である。
本稿では,RWSRのための反復的トークン評価・リファインメントフレームワークを提案する。
ITERはGAN(Generative Adversarial Networks)よりも訓練が容易であり,連続拡散モデルよりも効率的であることを示す。
論文 参考訳(メタデータ) (2023-12-09T17:07:32Z) - Deep Equilibrium Diffusion Restoration with Parallel Sampling [127.31325974698993]
拡散に基づく画像復元法の多くは、HQイメージを段階的に復元するために長いシリアルサンプリングチェーンを必要とする。
拡散型IRモデルにおけるサンプリングチェーン全体をモデル化して解析解を導出する。
単イメージサンプリングを並列に行うことができ、トレーニングなしでHQイメージを復元することができます。
論文 参考訳(メタデータ) (2023-11-20T08:27:56Z) - Post-training Quantization with Progressive Calibration and Activation
Relaxing for Text-to-Image Diffusion Models [52.298040414591135]
テキスト・画像拡散モデルのための学習後量子化手法を提案する。
我々は,安定拡散XLの量子化を初めて達成し,その性能を維持した。
論文 参考訳(メタデータ) (2023-11-10T09:10:09Z) - Prompt-tuning latent diffusion models for inverse problems [72.13952857287794]
本稿では,テキストから画像への遅延拡散モデルを用いた逆問題の画像化手法を提案する。
P2Lと呼ばれる本手法は,超解像,デブロアリング,インパインティングなどの様々なタスクにおいて,画像拡散モデルと潜時拡散モデルに基づく逆問題解法の両方に優れる。
論文 参考訳(メタデータ) (2023-10-02T11:31:48Z) - Fast Diffusion EM: a diffusion model for blind inverse problems with
application to deconvolution [0.0]
現在の手法では、劣化が知られており、復元と多様性の点で印象的な結果をもたらすと仮定している。
本研究では、これらのモデルの効率を活用し、復元された画像と未知のパラメータを共同で推定する。
本手法は,拡散モデルから抽出したサンプルを用いて,問題の対数類似度を近似し,未知のモデルパラメータを推定する方法とを交互に比較する。
論文 参考訳(メタデータ) (2023-09-01T06:47:13Z) - Nested Diffusion Processes for Anytime Image Generation [38.84966342097197]
そこで本研究では,任意の時間に任意の時間に停止した場合に,有効画像を生成することができるリアルタイム拡散法を提案する。
ImageNetとStable Diffusionを用いたテキスト・ツー・イメージ生成実験において,本手法の中間生成品質が元の拡散モデルよりも大幅に高いことを示す。
論文 参考訳(メタデータ) (2023-05-30T14:28:43Z) - Lossy Image Compression with Conditional Diffusion Models [25.158390422252097]
本稿では,拡散生成モデルを用いた画像圧縮のエンドツーエンド最適化について概説する。
VAEベースのニューラル圧縮とは対照的に、(平均)デコーダは決定論的ニューラルネットワークであり、私たちのデコーダは条件付き拡散モデルである。
提案手法では,GANモデルよりもFIDスコアが強く,VAEモデルとの競合性能も高い。
論文 参考訳(メタデータ) (2022-09-14T21:53:27Z) - Dynamic Dual-Output Diffusion Models [100.32273175423146]
反復分解に基づく生成は、他の生成モデルのクラスに匹敵する品質を示すことが示されている。
この方法の大きな欠点は、競合する結果を生み出すために数百のイテレーションが必要であることである。
近年の研究では、より少ないイテレーションでより高速に生成できるソリューションが提案されているが、画像の品質は徐々に低下している。
論文 参考訳(メタデータ) (2022-03-08T11:20:40Z) - Global Context with Discrete Diffusion in Vector Quantised Modelling for
Image Generation [19.156223720614186]
ベクトル量子変分オートエンコーダと自己回帰モデルとを生成部として統合することにより、画像生成における高品質な結果が得られる。
本稿では,VQ-VAEからのコンテンツリッチな離散視覚コードブックの助けを借りて,この離散拡散モデルにより,グローバルな文脈で高忠実度画像を生成することができることを示す。
論文 参考訳(メタデータ) (2021-12-03T09:09:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。