論文の概要: Progressive Denoising Model for Fine-Grained Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2210.02291v1
- Date: Wed, 5 Oct 2022 14:27:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 14:19:44.187681
- Title: Progressive Denoising Model for Fine-Grained Text-to-Image Generation
- Title(参考訳): 微細テキスト・画像生成のためのプログレッシブデノージングモデル
- Authors: Zhengcong Fei, Mingyuan Fan, Junshi Huang, Xiaoming Wei, Xiaolin Wei
- Abstract要約: 本稿では,高忠実度テキスト・画像生成のためのプログレッシブ・デノゲーション・モデルを提案する。
提案手法は, 既存のコンテキストに基づいて, 粗い画像から細かな画像への新しい画像トークンの作成によって効果を発揮する。
結果として得られた粗大な階層構造により、画像生成プロセスは直感的で解釈可能である。
- 参考スコア(独自算出の注目度): 36.01116644110734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, vector quantized autoregressive (VQ-AR) models have shown
remarkable results in text-to-image synthesis by equally predicting discrete
image tokens from the top left to bottom right in the latent space. Although
the simple generative process surprisingly works well, is this the best way to
generate the image? For instance, human creation is more inclined to the
outline-to-fine of an image, while VQ-AR models themselves do not consider any
relative importance of each component. In this paper, we present a progressive
denoising model for high-fidelity text-to-image image generation. The proposed
method takes effect by creating new image tokens from coarse to fine based on
the existing context in a parallel manner and this procedure is recursively
applied until an image sequence is completed. The resulting coarse-to-fine
hierarchy makes the image generation process intuitive and interpretable.
Extensive experiments demonstrate that the progressive model produces
significantly better results when compared with the previous VQ-AR method in
FID score across a wide variety of categories and aspects. Moreover, the
text-to-image generation time of traditional AR increases linearly with the
output image resolution and hence is quite time-consuming even for normal-size
images. In contrast, our approach allows achieving a better trade-off between
generation quality and speed.
- Abstract(参考訳): 近年,vector quantized autoregressive (vq-ar)モデルでは,潜在空間の左上から右下への離散的な画像トークンを等しく予測することにより,テキストから画像への合成において顕著な結果を示している。
単純な生成プロセスは驚くほどうまく機能しますが、これは画像を生成する最良の方法なのでしょうか?
例えば、VQ-ARモデル自体が各コンポーネントの相対的重要性を考慮していないのに対して、人間の生成は画像のアウトライン・トゥ・フィニッシュに傾いている。
本稿では,高忠実度テキスト画像生成のためのプログレッシブデノナイズモデルを提案する。
提案手法は,既存のコンテキストに基づいて粗い画像トークンから細かな画像トークンを並列に生成することにより,画像シーケンスが完了するまで再帰的に適用する。
結果として得られる細かな階層構造は、画像生成プロセスを直感的かつ解釈可能にします。
広範囲にわたるFIDスコアにおいて, 従来のVQ-AR法と比較して, プログレッシブモデルの方が, より優れた結果が得られることを示した。
さらに、従来のarのテキスト対画像生成時間は、出力画像解像度と線形に増加するため、通常のサイズの画像であってもかなり時間がかかる。
対照的に、当社のアプローチは、生成品質と速度のトレードオフを改善できます。
関連論文リスト
- Iterative Prompt Relabeling for diffusion model with RLDF [32.60206876828442]
拡散モデルは、画像生成、時系列予測、強化学習など、多くの領域で顕著な性能を示している。
本稿では,反復的な画像サンプリングとプロンプト・レバーベリングにより,画像とテキストを協調する新しいアルゴリズムIP-RLDFを提案する。
SDv2, GLIGEN, SDXLの3種類のモデルに対して徹底的な実験を行い, 命令に従って画像を生成する能力を検証した。
論文 参考訳(メタデータ) (2023-12-23T11:10:43Z) - Better speech synthesis through scaling [0.0]
近年、自己回帰変換器とDDPMの応用により、画像生成の分野が革新されている。
本稿では,画像生成領域の進歩を音声合成に適用する方法について述べる。
結果としてTorToiseは、表現力のあるマルチボイス音声合成システムになった。
論文 参考訳(メタデータ) (2023-05-12T04:19:49Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - Draft-and-Revise: Effective Image Generation with Contextual
RQ-Transformer [40.04085054791994]
生成過程におけるグローバルコンテキストを考慮した,コンテキストRQ変換器を用いたドラフト・アンド・リビジョンの効果的な画像生成フレームワークを提案する。
実験では,条件付き画像生成における最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-06-09T12:25:24Z) - Autoregressive Image Generation using Residual Quantization [40.04085054791994]
本稿では,高解像度画像を生成するための2段階のフレームワークを提案する。
フレームワークはResidual-Quantized VAE (RQ-VAE)とRQ-Transformerで構成されている。
提案手法は,高画質画像を生成するために,従来のARモデルよりもはるかに高速なサンプリング速度を有する。
論文 参考訳(メタデータ) (2022-03-03T11:44:46Z) - Vector Quantized Diffusion Model for Text-to-Image Synthesis [47.09451151258849]
テキスト・画像生成のためのベクトル量子化拡散(VQ-Diffusion)モデルを提案する。
実験の結果,VQ-Diffusion はテキスト・画像生成結果を大幅に改善することがわかった。
論文 参考訳(メタデータ) (2021-11-29T18:59:46Z) - Semi-Autoregressive Image Captioning [153.9658053662605]
画像キャプションに対する現在の最先端のアプローチは、通常自己回帰的手法を採用する。
連続的反復改善による非自己回帰画像キャプションは、かなりの加速を伴う自己回帰画像キャプションに匹敵する性能が得られる。
本稿では,性能と速度のトレードオフを改善するために,SAIC(Semi-Autoregressive Image Captioning)と呼ばれる新しい2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-11T15:11:54Z) - NP-DRAW: A Non-Parametric Structured Latent Variable Modelfor Image
Generation [139.8037697822064]
NP-DRAWと呼ばれる画像生成のための非パラメトリック構造化潜在変数モデルを提案する。
後続のキャンバスをパーツ単位で順次描画し、それをキャンバスからデコードする。
論文 参考訳(メタデータ) (2021-06-25T05:17:55Z) - LAPAR: Linearly-Assembled Pixel-Adaptive Regression Network for Single
Image Super-Resolution and Beyond [75.37541439447314]
単一画像超解像(SISR)は、低解像度(LR)画像を高解像度(HR)バージョンにアップサンプリングする根本的な問題を扱う。
本稿では,線形組立画素適応回帰ネットワーク (LAPAR) を提案する。
論文 参考訳(メタデータ) (2021-05-21T15:47:18Z) - The Power of Triply Complementary Priors for Image Compressive Sensing [89.14144796591685]
本稿では,一対の相補的な旅先を含むLRD画像モデルを提案する。
次に、画像CSのためのRDモデルに基づく新しいハイブリッド・プラグイン・アンド・プレイ・フレームワークを提案する。
そこで,提案したH-based image CS問題の解法として,単純で効果的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-16T08:17:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。