論文の概要: Unleashing Transformers: Parallel Token Prediction with Discrete
Absorbing Diffusion for Fast High-Resolution Image Generation from
Vector-Quantized Codes
- arxiv url: http://arxiv.org/abs/2111.12701v1
- Date: Wed, 24 Nov 2021 18:55:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-25 14:36:55.940901
- Title: Unleashing Transformers: Parallel Token Prediction with Discrete
Absorbing Diffusion for Fast High-Resolution Image Generation from
Vector-Quantized Codes
- Title(参考訳): unleashing transformers: ベクトル量子化符号からの高速高分解能画像生成のための離散吸収拡散による並列トークン予測
- Authors: Sam Bond-Taylor, Peter Hessey, Hiroshi Sasaki, Toby P. Breckon, Chris
G. Willcocks
- Abstract要約: 最近のベクトル量子化画像モデルは、画像解像度の制限を克服しているが、前者からの要素ワイド自己回帰サンプリングを通じてトークンを生成するため、明らかに遅く一方向である。
本稿では,制約のないトランスフォーマーアーキテクチャをバックボーンとして使用することにより,ベクトル量子化トークンの並列予測を可能にする,新しい離散拡散確率モデルを提案する。
- 参考スコア(独自算出の注目度): 15.881911863960774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Whilst diffusion probabilistic models can generate high quality image
content, key limitations remain in terms of both generating high-resolution
imagery and their associated high computational requirements. Recent
Vector-Quantized image models have overcome this limitation of image resolution
but are prohibitively slow and unidirectional as they generate tokens via
element-wise autoregressive sampling from the prior. By contrast, in this paper
we propose a novel discrete diffusion probabilistic model prior which enables
parallel prediction of Vector-Quantized tokens by using an unconstrained
Transformer architecture as the backbone. During training, tokens are randomly
masked in an order-agnostic manner and the Transformer learns to predict the
original tokens. This parallelism of Vector-Quantized token prediction in turn
facilitates unconditional generation of globally consistent high-resolution and
diverse imagery at a fraction of the computational expense. In this manner, we
can generate image resolutions exceeding that of the original training set
samples whilst additionally provisioning per-image likelihood estimates (in a
departure from generative adversarial approaches). Our approach achieves
state-of-the-art results in terms of Density (LSUN Bedroom: 1.51; LSUN
Churches: 1.12; FFHQ: 1.20) and Coverage (LSUN Bedroom: 0.83; LSUN Churches:
0.73; FFHQ: 0.80), and performs competitively on FID (LSUN Bedroom: 3.64; LSUN
Churches: 4.07; FFHQ: 6.11) whilst offering advantages in terms of both
computation and reduced training set requirements.
- Abstract(参考訳): 拡散確率モデルは高品質の画像コンテンツを生成することができるが、高解像度画像の生成とそれに関連する高い計算要求の両方に関して重要な制限が残っている。
最近のベクトル量子化画像モデルは、画像解像度のこの制限を克服しているが、前者からの要素単位の自己回帰サンプリングを通じてトークンを生成するため、明らかに遅く一方向である。
本稿では,非拘束型トランスフォーマーアーキテクチャをバックボーンとして用いることにより,ベクトル量子化トークンの並列予測を可能にする,新しい離散拡散確率モデルを提案する。
トレーニング中、トークンは順序に依存しないランダムにマスクされ、トランスフォーマーは元のトークンを予測することを学ぶ。
このベクトル量子化トークン予測の並列性は、計算コストのごく一部で、グローバルに一貫した高解像度および多彩な画像の無条件生成を促進する。
この方法では、(生成的敵対的アプローチから離れて)画像毎の推測をプロビジョニングしながら、元のトレーニングセットのサンプルよりも解像度の高い画像を生成することができる。
我々のアプローチは、密度(LSUN Bedroom: 1.51; LSUN Churches: 1.12; FFHQ: 1.20)とカバレッジ(LSUN Bedroom: 0.83; LSUN Churches: 0.73; FFHQ: 0.80)という最先端の成果を達成し、計算とトレーニングセット要件の両面で優位性を提供する一方で、FID(LSUN Bedroom: 3.64; LSUN Churches: 4.07; FFHQ: 6.11)で競合的に実行する。
関連論文リスト
- Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
拡散モデルは、大規模な生成画像モデルの分野を支配してきた。
本研究では,大規模な事前学習拡散モデルにおける高速拘束サンプリングのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - Accelerating Auto-regressive Text-to-Image Generation with Training-free Speculative Jacobi Decoding [60.188309982690335]
本稿では,自動回帰テキスト・画像生成を高速化するために,訓練不要な確率的並列デコーディングアルゴリズムであるSpeculative Jacobi Decoding (SJD)を提案する。
確率収束基準を導入することにより、サンプリングベースのトークン復号におけるランダム性を維持しつつ、自動回帰テキスト・画像生成の推論を高速化する。
論文 参考訳(メタデータ) (2024-10-02T16:05:27Z) - Traditional Classification Neural Networks are Good Generators: They are
Competitive with DDPMs and GANs [104.72108627191041]
従来のニューラルネットワーク分類器は、最先端の生成モデルに匹敵する高品質な画像を生成することができることを示す。
マスクをベースとした再構成モジュールを提案し, 意味的勾配を意識し, 可視画像の合成を行う。
また,本手法は,画像テキスト基盤モデルに関して,テキスト・画像生成にも適用可能であることを示す。
論文 参考訳(メタデータ) (2022-11-27T11:25:35Z) - Improved Masked Image Generation with Token-Critic [16.749458173904934]
本稿では,非自己回帰型生成変換器のサンプリングを誘導する補助モデルであるToken-Criticを紹介する。
最先端の生成変換器は、その性能を著しく向上させ、生成した画像品質と多様性のトレードオフの観点から、最近の拡散モデルやGANよりも優れている。
論文 参考訳(メタデータ) (2022-09-09T17:57:21Z) - Megapixel Image Generation with Step-Unrolled Denoising Autoencoders [5.145313322824774]
本稿では,サンプルの解像度を高くする手法と,トレーニングとサンプリングの計算要求を低減させる手法の組み合わせを提案する。
例えば、ベクトル量子化GAN(VQ-GAN)、高レベルの損失 - しかし知覚的に重要 - 圧縮 - が可能なベクトル量子化(VQ)モデル、時間ガラストランスフォーマー、高スケールの自己アテンションモデル、非自己回帰(NAR)テキスト生成モデルであるステップ制御型デノイングオートエンコーダ(SUNDAE)などがある。
提案するフレームワークは,高解像度(1024×1024$)までスケールし,(高速で)トレーニングを行う。
論文 参考訳(メタデータ) (2022-06-24T15:47:42Z) - Vector Quantized Diffusion Model for Text-to-Image Synthesis [47.09451151258849]
テキスト・画像生成のためのベクトル量子化拡散(VQ-Diffusion)モデルを提案する。
実験の結果,VQ-Diffusion はテキスト・画像生成結果を大幅に改善することがわかった。
論文 参考訳(メタデータ) (2021-11-29T18:59:46Z) - High-Resolution Complex Scene Synthesis with Transformers [6.445605125467574]
深層生成モデルによる複雑なシーン画像の粗粒合成が最近人気を集めている。
本稿では, 生成モデルが, 追加の目的を持たず, 純粋帰納的学習に基づく, この課題に対するアプローチを提案する。
提案システムは,所定のレイアウトに整合した高品質な画像を合成可能であることを示す。
論文 参考訳(メタデータ) (2021-05-13T17:56:07Z) - InfinityGAN: Towards Infinite-Resolution Image Synthesis [92.40782797030977]
任意の解像度画像を生成するinfinityganを提案する。
少ない計算資源でパッチバイパッチをシームレスに訓練し、推論する方法を示す。
論文 参考訳(メタデータ) (2021-04-08T17:59:30Z) - Spatially-Adaptive Pixelwise Networks for Fast Image Translation [57.359250882770525]
高速かつ効率的な画像-画像変換を目的とした新しいジェネレータアーキテクチャを提案する。
私たちはピクセルワイズネットワークを使用します。つまり、各ピクセルは他のピクセルとは独立して処理されます。
私たちのモデルは最先端のベースラインよりも最大18倍高速です。
論文 参考訳(メタデータ) (2020-12-05T10:02:03Z) - RAIN: A Simple Approach for Robust and Accurate Image Classification
Networks [156.09526491791772]
既存の敵防衛手法の大部分は、予測精度を犠牲にして堅牢性を実現することが示されている。
本稿では,ロバストおよび高精度画像分類N(RAIN)と呼ぶ新しい前処理フレームワークを提案する。
RAINは入力に対してランダム化を適用して、モデルフォワード予測パスと後方勾配パスの関係を壊し、モデルロバスト性を改善する。
STL10 と ImageNet のデータセットを用いて、様々な種類の敵攻撃に対する RAIN の有効性を検証する。
論文 参考訳(メタデータ) (2020-04-24T02:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。