論文の概要: Scaling up GANs for Text-to-Image Synthesis
- arxiv url: http://arxiv.org/abs/2303.05511v2
- Date: Mon, 19 Jun 2023 07:01:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 03:20:36.339375
- Title: Scaling up GANs for Text-to-Image Synthesis
- Title(参考訳): テキスト・画像合成のためのGANのスケールアップ
- Authors: Minguk Kang, Jun-Yan Zhu, Richard Zhang, Jaesik Park, Eli Shechtman,
Sylvain Paris, Taesung Park
- Abstract要約: GANはかつて、StyleGANのようなテクニックを使って、事実上の選択肢でした。
DALL-E 2では、自動回帰モデルと拡散モデルが大規模生成モデルの新たな標準となった。
我々は,この限界を超える新しいGANアーキテクチャであるGigaGANを紹介する。
- 参考スコア(独自算出の注目度): 59.45030080514425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent success of text-to-image synthesis has taken the world by storm
and captured the general public's imagination. From a technical standpoint, it
also marked a drastic change in the favored architecture to design generative
image models. GANs used to be the de facto choice, with techniques like
StyleGAN. With DALL-E 2, auto-regressive and diffusion models became the new
standard for large-scale generative models overnight. This rapid shift raises a
fundamental question: can we scale up GANs to benefit from large datasets like
LAION? We find that na\"Ively increasing the capacity of the StyleGAN
architecture quickly becomes unstable. We introduce GigaGAN, a new GAN
architecture that far exceeds this limit, demonstrating GANs as a viable option
for text-to-image synthesis. GigaGAN offers three major advantages. First, it
is orders of magnitude faster at inference time, taking only 0.13 seconds to
synthesize a 512px image. Second, it can synthesize high-resolution images, for
example, 16-megapixel pixels in 3.66 seconds. Finally, GigaGAN supports various
latent space editing applications such as latent interpolation, style mixing,
and vector arithmetic operations.
- Abstract(参考訳): テキストから画像への合成が最近成功したことで、世界は嵐にさらされ、一般大衆の想像力を捉えた。
技術的な観点から言えば、生成的イメージモデルを設計するために好まれるアーキテクチャが劇的に変化した。
GANはかつて、StyleGANのようなテクニックを使って、事実上の選択肢でした。
dall-e 2では、自動回帰拡散モデルが大規模な生成モデルの新しい標準となった。
LAIONのような大規模なデータセットの恩恵を受けるために、GANをスケールアップできるだろうか?
そこで我々は,StyleGAN アーキテクチャのキャパシティの増大が急速に不安定になることを発見した。
我々は,この限界を超える新しいGANアーキテクチャであるGigaGANを紹介し,GANをテキスト・画像合成の実行可能な選択肢として示す。
GigaGANには3つの大きな利点がある。
第一に、512px画像の合成にはわずか0.13秒しかかからない。
第二に、16メガピクセルの高解像度画像を3.66秒で合成できる。
最後に、GigaGANは潜時補間、スタイルミキシング、ベクトル演算などの様々な潜時空間編集アプリケーションをサポートしている。
関連論文リスト
- StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale
Text-to-Image Synthesis [54.39789900854696]
StyleGAN-Tは大規模なテキスト・画像合成の要求に対処する。
従来のGANよりも大幅に改善され、サンプルの品質と速度の点で蒸留拡散モデルより優れていた。
論文 参考訳(メタデータ) (2023-01-23T16:05:45Z) - GAN You Hear Me? Reclaiming Unconditional Speech Synthesis from
Diffusion Models [23.822788597966646]
AudioStyleGAN (ASGAN) は、無条件音声合成のための新しい生成的敵ネットワーク(GAN)である。
ASGANは、Google Speech Commandsデータセット上で無条件音声合成の最先端結果を達成する。
論文 参考訳(メタデータ) (2022-10-11T09:12:29Z) - One-shot Ultra-high-Resolution Generative Adversarial Network That
Synthesizes 16K Images On A Single GPU [1.9060575156739825]
OUR-GANは、単一のトレーニング画像から反復的でない16K画像を生成するワンショット生成対向ネットワークフレームワークである。
OUR-GANは12.5GBのGPUメモリと4Kの画像をわずか4.29GBで合成できる。
OUR-GANは、単一のコンシューマGPU上で反復的でないUHR画像を生成する最初のワンショット画像合成器である。
論文 参考訳(メタデータ) (2022-02-28T13:48:41Z) - DGL-GAN: Discriminator Guided Learning for GAN Compression [57.6150859067392]
高計算コストのGAN(Generative Adversarial Networks)は、ランダムノイズから高分解能画像を合成する際、顕著な成果を上げている。
本稿では,bf DGL-GAN と呼ばれるバニラ bf GAN を圧縮するための,新しい単純な bf 識別器 bf 誘導 bf 学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-13T09:24:45Z) - InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。
これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文 参考訳(メタデータ) (2021-12-08T21:39:00Z) - Aggregated Contextual Transformations for High-Resolution Image
Inpainting [57.241749273816374]
画像の高精細化のための拡張GANモデルAggregated Contextual-Transformation GAN (AOT-GAN)を提案する。
そこで,提案するAOTブロックの複数のレイヤを積み重ねることで,AOT-GANのジェネレータを構築する。
テクスチャ合成を改善するため,AOT-GANの識別をマスク予測タスクでトレーニングすることで強化する。
論文 参考訳(メタデータ) (2021-04-03T15:50:17Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z) - GAN Compression: Efficient Architectures for Interactive Conditional
GANs [45.012173624111185]
最近のコンディショナル・ジェネレーティブ・アドバイサル・ネットワーク(cGAN)は、現代の認識CNNよりも1~2桁の計算集約性がある。
本稿では,cGANにおけるジェネレータの推論時間とモデルサイズを低減するための汎用圧縮フレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-19T17:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。