論文の概要: Megapixel Image Generation with Step-Unrolled Denoising Autoencoders
- arxiv url: http://arxiv.org/abs/2206.12351v1
- Date: Fri, 24 Jun 2022 15:47:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-27 12:59:19.982004
- Title: Megapixel Image Generation with Step-Unrolled Denoising Autoencoders
- Title(参考訳): step-unrolled denoising autoencoderを用いたメガピクセル画像生成
- Authors: Alex F. McKinney, Chris G. Willcocks
- Abstract要約: 本稿では,サンプルの解像度を高くする手法と,トレーニングとサンプリングの計算要求を低減させる手法の組み合わせを提案する。
例えば、ベクトル量子化GAN(VQ-GAN)、高レベルの損失 - しかし知覚的に重要 - 圧縮 - が可能なベクトル量子化(VQ)モデル、時間ガラストランスフォーマー、高スケールの自己アテンションモデル、非自己回帰(NAR)テキスト生成モデルであるステップ制御型デノイングオートエンコーダ(SUNDAE)などがある。
提案するフレームワークは,高解像度(1024×1024$)までスケールし,(高速で)トレーニングを行う。
- 参考スコア(独自算出の注目度): 5.145313322824774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An ongoing trend in generative modelling research has been to push sample
resolutions higher whilst simultaneously reducing computational requirements
for training and sampling. We aim to push this trend further via the
combination of techniques - each component representing the current pinnacle of
efficiency in their respective areas. These include vector-quantized GAN
(VQ-GAN), a vector-quantization (VQ) model capable of high levels of lossy -
but perceptually insignificant - compression; hourglass transformers, a highly
scaleable self-attention model; and step-unrolled denoising autoencoders
(SUNDAE), a non-autoregressive (NAR) text generative model. Unexpectedly, our
method highlights weaknesses in the original formulation of hourglass
transformers when applied to multidimensional data. In light of this, we
propose modifications to the resampling mechanism, applicable in any task
applying hierarchical transformers to multidimensional data. Additionally, we
demonstrate the scalability of SUNDAE to long sequence lengths - four times
longer than prior work. Our proposed framework scales to high-resolutions
($1024 \times 1024$) and trains quickly (2-4 days). Crucially, the trained
model produces diverse and realistic megapixel samples in approximately 2
seconds on a consumer-grade GPU (GTX 1080Ti). In general, the framework is
flexible: supporting an arbitrary number of sampling steps, sample-wise
self-stopping, self-correction capabilities, conditional generation, and a NAR
formulation that allows for arbitrary inpainting masks. We obtain FID scores of
10.56 on FFHQ256 - close to the original VQ-GAN in less than half the sampling
steps - and 21.85 on FFHQ1024 in only 100 sampling steps.
- Abstract(参考訳): 生成モデリング研究の現在進行中の傾向は、サンプル解像度を高くし、同時にトレーニングとサンプリングの計算要求を減らすことである。
それぞれの領域における現在の効率の頂点を表す各コンポーネントのテクニックの組み合わせによって、この傾向をさらに推し進めることを目指している。
例えば、ベクトル量子化GAN(VQ-GAN)、高レベルの損失を知覚的に重要視できるベクトル量子化(VQ)モデル、時間ガラストランスフォーマー、高度にスケール可能な自己アテンションモデル、非自己回帰(NAR)テキスト生成モデルであるステップ制御型デノイングオートエンコーダ(SUNDAE)などがある。
多次元データに適用した場合の時間ガラス変圧器の元々の定式化の弱点を明らかにする。
これを踏まえ、階層変換器を多次元データに適用するタスクに適用可能な再サンプリング機構の修正を提案する。
さらに,SUNDAEの長いシーケンス長に対するスケーラビリティを,以前の作業の4倍の時間で実証する。
提案手法は高分解能(1024 \times 1024$)までスケールし,高速(2-4日)で走行する。
重要なことは、トレーニングされたモデルは、コンシューマグレードGPU(GTX 1080Ti)上で、多種多様な現実的なメガピクセルサンプルを約2秒で生成する。
一般に、このフレームワークは柔軟性があり、任意の数のサンプリングステップ、サンプル回りのセルフストッピング、自己補正機能、条件生成、任意の塗装マスクを可能にするNARの定式化をサポートする。
FIDスコアはFFHQ256で10.56点、サンプリングステップの半分以下でVQ-GANに近づき、FFHQ1024で21.85点を得る。
関連論文リスト
- Parallel Sampling of Diffusion Models [76.3124029406809]
拡散モデルは強力な生成モデルであるが、サンプリングが遅い。
そこで本研究では,複数のステップを並列にdenoisingすることで,事前学習した拡散モデルのサンプリングを高速化するParaDiGMSを提案する。
論文 参考訳(メタデータ) (2023-05-25T17:59:42Z) - Cascaded Cross-Attention Networks for Data-Efficient Whole-Slide Image
Classification Using Transformers [0.11219061154635457]
全スライディングイメージングは、組織標本の高解像度画像のキャプチャとデジタル化を可能にする。
高解像度情報を効果的に活用するための候補としてトランスフォーマーアーキテクチャが提案されている。
本稿では,抽出されたパッチ数と線形にスケールするクロスアテンション機構に基づく新しいカスケード型クロスアテンションネットワーク(CCAN)を提案する。
論文 参考訳(メタデータ) (2023-05-11T16:42:24Z) - Preconditioned Score-based Generative Models [49.88840603798831]
直感的な加速度法はサンプリングの繰り返しを減らし、しかしながら重大な性能劣化を引き起こす。
本稿では,行列プレコンディショニングを利用したモデル非依存型bfem事前条件拡散サンプリング(PDS)手法を提案する。
PDSは、バニラSGMのサンプリングプロセスを限界余剰計算コストで変更し、モデルの再訓練を行わない。
論文 参考訳(メタデータ) (2023-02-13T16:30:53Z) - Accelerating Large Language Model Decoding with Speculative Sampling [9.851546623666588]
投機的サンプリング(英: Speculative sample)とは、変換器の呼び出し毎に複数のトークンを生成することで、変換器の復号を高速化するアルゴリズムである。
我々は、70億のパラメータ言語モデルであるChinchillaを用いて投機的サンプリングをベンチマークし、分散セットアップで2-2.5倍のデコード速度を達成する。
論文 参考訳(メタデータ) (2023-02-02T18:44:11Z) - Latent Autoregressive Source Separation [5.871054749661012]
本稿では,ベクトル量子化遅延自己回帰音源分離(入力信号を構成源にデミックスする)を導入する。
分離法は, 自己回帰モデルが先行するベイズ式に依拠し, 付加トークンの潜在和に対して離散的(非パラメトリック)確率関数を構築した。
論文 参考訳(メタデータ) (2023-01-09T17:32:00Z) - ProDiff: Progressive Fast Diffusion Model For High-Quality
Text-to-Speech [63.780196620966905]
本稿では,高品質テキスト合成のためのプログレッシブ高速拡散モデルであるProDiffを提案する。
ProDiffはクリーンデータを直接予測することでデノナイジングモデルをパラメータ化し、サンプリングを高速化する際の品質劣化を回避する。
評価の結果,高忠実度メル-スペクトログラムの合成にProDiffは2回しか要しないことがわかった。
ProDiffは1つのNVIDIA 2080Ti GPU上で、サンプリング速度をリアルタイムより24倍高速にする。
論文 参考訳(メタデータ) (2022-07-13T17:45:43Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z) - Unleashing Transformers: Parallel Token Prediction with Discrete
Absorbing Diffusion for Fast High-Resolution Image Generation from
Vector-Quantized Codes [15.881911863960774]
最近のベクトル量子化画像モデルは、画像解像度の制限を克服しているが、前者からの要素ワイド自己回帰サンプリングを通じてトークンを生成するため、明らかに遅く一方向である。
本稿では,制約のないトランスフォーマーアーキテクチャをバックボーンとして使用することにより,ベクトル量子化トークンの並列予測を可能にする,新しい離散拡散確率モデルを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:55:14Z) - Improved Transformer for High-Resolution GANs [69.42469272015481]
この課題に対処するために、Transformerに2つの重要な要素を紹介します。
実験で提案したHiTは、条件のないImageNetの31.87と2.95のFIDスコアをそれぞれ128×128$とFFHQの256×256$で達成していることを示す。
論文 参考訳(メタデータ) (2021-06-14T17:39:49Z) - Anytime Sampling for Autoregressive Models via Ordered Autoencoding [88.01906682843618]
自動回帰モデルは画像生成や音声生成などのタスクに広く使われている。
これらのモデルのサンプリングプロセスは割り込みを許さず、リアルタイムの計算資源に適応できない。
いつでもサンプリングできる新しい自動回帰モデルファミリーを提案します。
論文 参考訳(メタデータ) (2021-02-23T05:13:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。