論文の概要: Progressive Denoising Model for Fine-Grained Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2210.02291v1
- Date: Wed, 5 Oct 2022 14:27:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 14:19:44.187681
- Title: Progressive Denoising Model for Fine-Grained Text-to-Image Generation
- Title(参考訳): 微細テキスト・画像生成のためのプログレッシブデノージングモデル
- Authors: Zhengcong Fei, Mingyuan Fan, Junshi Huang, Xiaoming Wei, Xiaolin Wei
- Abstract要約: 本稿では,高忠実度テキスト・画像生成のためのプログレッシブ・デノゲーション・モデルを提案する。
提案手法は, 既存のコンテキストに基づいて, 粗い画像から細かな画像への新しい画像トークンの作成によって効果を発揮する。
結果として得られた粗大な階層構造により、画像生成プロセスは直感的で解釈可能である。
- 参考スコア(独自算出の注目度): 36.01116644110734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, vector quantized autoregressive (VQ-AR) models have shown
remarkable results in text-to-image synthesis by equally predicting discrete
image tokens from the top left to bottom right in the latent space. Although
the simple generative process surprisingly works well, is this the best way to
generate the image? For instance, human creation is more inclined to the
outline-to-fine of an image, while VQ-AR models themselves do not consider any
relative importance of each component. In this paper, we present a progressive
denoising model for high-fidelity text-to-image image generation. The proposed
method takes effect by creating new image tokens from coarse to fine based on
the existing context in a parallel manner and this procedure is recursively
applied until an image sequence is completed. The resulting coarse-to-fine
hierarchy makes the image generation process intuitive and interpretable.
Extensive experiments demonstrate that the progressive model produces
significantly better results when compared with the previous VQ-AR method in
FID score across a wide variety of categories and aspects. Moreover, the
text-to-image generation time of traditional AR increases linearly with the
output image resolution and hence is quite time-consuming even for normal-size
images. In contrast, our approach allows achieving a better trade-off between
generation quality and speed.
- Abstract(参考訳): 近年,vector quantized autoregressive (vq-ar)モデルでは,潜在空間の左上から右下への離散的な画像トークンを等しく予測することにより,テキストから画像への合成において顕著な結果を示している。
単純な生成プロセスは驚くほどうまく機能しますが、これは画像を生成する最良の方法なのでしょうか?
例えば、VQ-ARモデル自体が各コンポーネントの相対的重要性を考慮していないのに対して、人間の生成は画像のアウトライン・トゥ・フィニッシュに傾いている。
本稿では,高忠実度テキスト画像生成のためのプログレッシブデノナイズモデルを提案する。
提案手法は,既存のコンテキストに基づいて粗い画像トークンから細かな画像トークンを並列に生成することにより,画像シーケンスが完了するまで再帰的に適用する。
結果として得られる細かな階層構造は、画像生成プロセスを直感的かつ解釈可能にします。
広範囲にわたるFIDスコアにおいて, 従来のVQ-AR法と比較して, プログレッシブモデルの方が, より優れた結果が得られることを示した。
さらに、従来のarのテキスト対画像生成時間は、出力画像解像度と線形に増加するため、通常のサイズの画像であってもかなり時間がかかる。
対照的に、当社のアプローチは、生成品質と速度のトレードオフを改善できます。
関連論文リスト
- Randomized Autoregressive Visual Generation [26.195148077398223]
本稿では,視覚生成のためのランダム化自己回帰モデリング(RAR)を提案する。
RARは、言語モデリングフレームワークとの完全な互換性を維持しながら、画像生成タスクに最先端のパフォーマンスを新たに設定する。
ImageNet-256ベンチマークでは、RARはFIDスコアが1.48に達し、最先端の自己回帰画像生成装置に勝るだけでなく、拡散ベースおよびマスク付きトランスフォーマーベースの手法よりも優れている。
論文 参考訳(メタデータ) (2024-11-01T17:59:58Z) - ImageFolder: Autoregressive Image Generation with Folded Tokens [51.815319504939396]
トークン長の増大は、画像再構成の品質を改善するための一般的なアプローチである。
トークン長に関する復元と生成品質の間にはトレードオフがある。
本稿では,自己回帰モデルにおいて折り畳み可能な空間整列型画像トークンを提供するセマンティック・トークンライザであるイメージを提案する。
論文 参考訳(メタデータ) (2024-10-02T17:06:39Z) - Accelerating Auto-regressive Text-to-Image Generation with Training-free Speculative Jacobi Decoding [60.188309982690335]
本稿では,自動回帰テキスト・画像生成を高速化するために,訓練不要な確率的並列デコーディングアルゴリズムであるSpeculative Jacobi Decoding (SJD)を提案する。
確率収束基準を導入することにより、サンプリングベースのトークン復号におけるランダム性を維持しつつ、自動回帰テキスト・画像生成の推論を高速化する。
論文 参考訳(メタデータ) (2024-10-02T16:05:27Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - Draft-and-Revise: Effective Image Generation with Contextual
RQ-Transformer [40.04085054791994]
生成過程におけるグローバルコンテキストを考慮した,コンテキストRQ変換器を用いたドラフト・アンド・リビジョンの効果的な画像生成フレームワークを提案する。
実験では,条件付き画像生成における最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-06-09T12:25:24Z) - Autoregressive Image Generation using Residual Quantization [40.04085054791994]
本稿では,高解像度画像を生成するための2段階のフレームワークを提案する。
フレームワークはResidual-Quantized VAE (RQ-VAE)とRQ-Transformerで構成されている。
提案手法は,高画質画像を生成するために,従来のARモデルよりもはるかに高速なサンプリング速度を有する。
論文 参考訳(メタデータ) (2022-03-03T11:44:46Z) - Vector Quantized Diffusion Model for Text-to-Image Synthesis [47.09451151258849]
テキスト・画像生成のためのベクトル量子化拡散(VQ-Diffusion)モデルを提案する。
実験の結果,VQ-Diffusion はテキスト・画像生成結果を大幅に改善することがわかった。
論文 参考訳(メタデータ) (2021-11-29T18:59:46Z) - Semi-Autoregressive Image Captioning [153.9658053662605]
画像キャプションに対する現在の最先端のアプローチは、通常自己回帰的手法を採用する。
連続的反復改善による非自己回帰画像キャプションは、かなりの加速を伴う自己回帰画像キャプションに匹敵する性能が得られる。
本稿では,性能と速度のトレードオフを改善するために,SAIC(Semi-Autoregressive Image Captioning)と呼ばれる新しい2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-11T15:11:54Z) - The Power of Triply Complementary Priors for Image Compressive Sensing [89.14144796591685]
本稿では,一対の相補的な旅先を含むLRD画像モデルを提案する。
次に、画像CSのためのRDモデルに基づく新しいハイブリッド・プラグイン・アンド・プレイ・フレームワークを提案する。
そこで,提案したH-based image CS問題の解法として,単純で効果的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-16T08:17:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。