Fugu-MT 論文翻訳(概要): Progressive Denoising Model for Fine-Grained Text-to-Image Generation

論文の概要: Progressive Denoising Model for Fine-Grained Text-to-Image Generation

arxiv url: http://arxiv.org/abs/2210.02291v1
Date: Wed, 5 Oct 2022 14:27:20 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-06 14:19:44.187681
Title: Progressive Denoising Model for Fine-Grained Text-to-Image Generation
Title（参考訳）: 微細テキスト・画像生成のためのプログレッシブデノージングモデル
Authors: Zhengcong Fei, Mingyuan Fan, Junshi Huang, Xiaoming Wei, Xiaolin Wei
Abstract要約: 本稿では,高忠実度テキスト・画像生成のためのプログレッシブ・デノゲーション・モデルを提案する。提案手法は, 既存のコンテキストに基づいて, 粗い画像から細かな画像への新しい画像トークンの作成によって効果を発揮する。結果として得られた粗大な階層構造により、画像生成プロセスは直感的で解釈可能である。
参考スコア（独自算出の注目度）: 36.01116644110734
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, vector quantized autoregressive (VQ-AR) models have shown remarkable results in text-to-image synthesis by equally predicting discrete image tokens from the top left to bottom right in the latent space. Although the simple generative process surprisingly works well, is this the best way to generate the image? For instance, human creation is more inclined to the outline-to-fine of an image, while VQ-AR models themselves do not consider any relative importance of each component. In this paper, we present a progressive denoising model for high-fidelity text-to-image image generation. The proposed method takes effect by creating new image tokens from coarse to fine based on the existing context in a parallel manner and this procedure is recursively applied until an image sequence is completed. The resulting coarse-to-fine hierarchy makes the image generation process intuitive and interpretable. Extensive experiments demonstrate that the progressive model produces significantly better results when compared with the previous VQ-AR method in FID score across a wide variety of categories and aspects. Moreover, the text-to-image generation time of traditional AR increases linearly with the output image resolution and hence is quite time-consuming even for normal-size images. In contrast, our approach allows achieving a better trade-off between generation quality and speed.
Abstract（参考訳）: 近年,vector quantized autoregressive (vq-ar)モデルでは,潜在空間の左上から右下への離散的な画像トークンを等しく予測することにより,テキストから画像への合成において顕著な結果を示している。単純な生成プロセスは驚くほどうまく機能しますが、これは画像を生成する最良の方法なのでしょうか? 例えば、VQ-ARモデル自体が各コンポーネントの相対的重要性を考慮していないのに対して、人間の生成は画像のアウトライン・トゥ・フィニッシュに傾いている。本稿では,高忠実度テキスト画像生成のためのプログレッシブデノナイズモデルを提案する。提案手法は,既存のコンテキストに基づいて粗い画像トークンから細かな画像トークンを並列に生成することにより,画像シーケンスが完了するまで再帰的に適用する。結果として得られる細かな階層構造は、画像生成プロセスを直感的かつ解釈可能にします。広範囲にわたるFIDスコアにおいて, 従来のVQ-AR法と比較して, プログレッシブモデルの方が, より優れた結果が得られることを示した。さらに、従来のarのテキスト対画像生成時間は、出力画像解像度と線形に増加するため、通常のサイズの画像であってもかなり時間がかかる。対照的に、当社のアプローチは、生成品質と速度のトレードオフを改善できます。

関連論文リスト

HMAR: Efficient Hierarchical Masked Auto-Regressive Image Generation [91.08481618973111]
Visual Auto-Regressive Modeling (VAR)は、自己回帰画像モデルと拡散モデルの間の速度と品質のギャップを埋めることに約束している。高速サンプリングで高品質な画像を生成するために階層型マスク付き自己回帰モデリング(HMAR)を導入する。 HMARはマルコフ過程として次のスケールの予測を再構成し、各解像度スケールの予測は直前のトークンにのみ条件付けされる。
論文参考訳（メタデータ） (2025-06-04T20:08:07Z)
Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。 GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文参考訳（メタデータ） (2025-04-24T17:59:56Z)
MergeVQ: A Unified Framework for Visual Generation and Representation with Disentangled Token Merging and Quantization [43.12251414524675]
ベクトル量子化(VQ)を用いたマスクド画像モデリング(MIM)は,自己教師付き事前学習と画像生成において大きな成功を収めている。本稿では,VQに基づく生成モデルにトークンマージ手法を組み込んで,画像生成と視覚表現学習のギャップを埋めるMergeVQを提案する。
論文参考訳（メタデータ） (2025-04-01T17:39:19Z)
Improving Autoregressive Image Generation through Coarse-to-Fine Token Prediction [4.900334213807624]
自己回帰モデリングをより困難にすることなく、大規模なコードブックのメリットを享受する方法を示す。本フレームワークは,(1)各トークンの粗いラベルを逐次予測する自己回帰モデル,(2)粗いラベルに条件付けられた全てのトークンの細粒度ラベルを同時に予測する補助モデル,の2段階からなる。
論文参考訳（メタデータ） (2025-03-20T14:41:29Z)
NFIG: Autoregressive Image Generation with Next-Frequency Prediction [42.00209582503672]
textbfNext-textbfFrequency textbfImage textbfGeneration (textbfNFIG) は、画像生成プロセスを複数の周波数誘導段階に分解する新しいフレームワークである。提案手法では,まず低周波成分を生成し,より少ないトークンで大域構造を確立する。
論文参考訳（メタデータ） (2025-03-10T08:59:10Z)
Frequency Autoregressive Image Generation with Continuous Tokens [31.833852108014312]
本稿では、周波数プログレッシブ自己回帰(textbfFAR)パラダイムを導入し、連続トークン化器を用いてFARをインスタンス化する。我々は、ImageNetデータセットの総合的な実験を通して、FARの有効性を実証する。
論文参考訳（メタデータ） (2025-03-07T10:34:04Z)
Parallelized Autoregressive Visual Generation [65.9579525736345]
本稿では,並列化された自己回帰視覚生成のための簡易かつ効果的な手法を提案する。本手法は,画像生成タスクと映像生成タスクの両方において,最大9.5倍の高速化を実現し,品質劣化を最小限に抑えた3.6倍の高速化を実現する。
論文参考訳（メタデータ） (2024-12-19T17:59:54Z)
Randomized Autoregressive Visual Generation [26.195148077398223]
本稿では,視覚生成のためのランダム化自己回帰モデリング(RAR)を提案する。 RARは、言語モデリングフレームワークとの完全な互換性を維持しながら、画像生成タスクに最先端のパフォーマンスを新たに設定する。 ImageNet-256ベンチマークでは、RARはFIDスコアが1.48に達し、最先端の自己回帰画像生成装置に勝るだけでなく、拡散ベースおよびマスク付きトランスフォーマーベースの手法よりも優れている。
論文参考訳（メタデータ） (2024-11-01T17:59:58Z)
ImageFolder: Autoregressive Image Generation with Folded Tokens [51.815319504939396]
トークン長の増大は、画像再構成の品質を改善するための一般的なアプローチである。トークン長に関する復元と生成品質の間にはトレードオフがある。本稿では,自己回帰モデルにおいて折り畳み可能な空間整列型画像トークンを提供するセマンティック・トークンライザであるイメージを提案する。
論文参考訳（メタデータ） (2024-10-02T17:06:39Z)
Accelerating Auto-regressive Text-to-Image Generation with Training-free Speculative Jacobi Decoding [60.188309982690335]
本稿では,自動回帰テキスト・画像生成を高速化するために,訓練不要な確率的並列デコーディングアルゴリズムであるSpeculative Jacobi Decoding (SJD)を提案する。確率収束基準を導入することにより、サンプリングベースのトークン復号におけるランダム性を維持しつつ、自動回帰テキスト・画像生成の推論を高速化する。
論文参考訳（メタデータ） (2024-10-02T16:05:27Z)
DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。 3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2022-07-13T11:12:03Z)
Draft-and-Revise: Effective Image Generation with Contextual RQ-Transformer [40.04085054791994]
生成過程におけるグローバルコンテキストを考慮した,コンテキストRQ変換器を用いたドラフト・アンド・リビジョンの効果的な画像生成フレームワークを提案する。実験では,条件付き画像生成における最先端の結果が得られた。
論文参考訳（メタデータ） (2022-06-09T12:25:24Z)
Autoregressive Image Generation using Residual Quantization [40.04085054791994]
本稿では,高解像度画像を生成するための2段階のフレームワークを提案する。フレームワークはResidual-Quantized VAE (RQ-VAE)とRQ-Transformerで構成されている。提案手法は,高画質画像を生成するために,従来のARモデルよりもはるかに高速なサンプリング速度を有する。
論文参考訳（メタデータ） (2022-03-03T11:44:46Z)
Vector Quantized Diffusion Model for Text-to-Image Synthesis [47.09451151258849]
テキスト・画像生成のためのベクトル量子化拡散(VQ-Diffusion)モデルを提案する。実験の結果,VQ-Diffusion はテキスト・画像生成結果を大幅に改善することがわかった。
論文参考訳（メタデータ） (2021-11-29T18:59:46Z)
Semi-Autoregressive Image Captioning [153.9658053662605]
画像キャプションに対する現在の最先端のアプローチは、通常自己回帰的手法を採用する。連続的反復改善による非自己回帰画像キャプションは、かなりの加速を伴う自己回帰画像キャプションに匹敵する性能が得られる。本稿では,性能と速度のトレードオフを改善するために,SAIC(Semi-Autoregressive Image Captioning)と呼ばれる新しい2段階のフレームワークを提案する。
論文参考訳（メタデータ） (2021-10-11T15:11:54Z)
The Power of Triply Complementary Priors for Image Compressive Sensing [89.14144796591685]
本稿では,一対の相補的な旅先を含むLRD画像モデルを提案する。次に、画像CSのためのRDモデルに基づく新しいハイブリッド・プラグイン・アンド・プレイ・フレームワークを提案する。そこで,提案したH-based image CS問題の解法として,単純で効果的なアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-05-16T08:17:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。