論文の概要: StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale
Text-to-Image Synthesis
- arxiv url: http://arxiv.org/abs/2301.09515v1
- Date: Mon, 23 Jan 2023 16:05:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-24 13:08:02.846690
- Title: StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale
Text-to-Image Synthesis
- Title(参考訳): StyleGAN-T: 大規模テキスト・画像合成のためのGANのアンロック
- Authors: Axel Sauer, Tero Karras, Samuli Laine, Andreas Geiger, Timo Aila
- Abstract要約: StyleGAN-Tは大規模なテキスト・画像合成の要求に対処する。
従来のGANよりも大幅に改善され、サンプルの品質と速度の点で蒸留拡散モデルより優れていた。
- 参考スコア(独自算出の注目度): 54.39789900854696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image synthesis has recently seen significant progress thanks to
large pretrained language models, large-scale training data, and the
introduction of scalable model families such as diffusion and autoregressive
models. However, the best-performing models require iterative evaluation to
generate a single sample. In contrast, generative adversarial networks (GANs)
only need a single forward pass. They are thus much faster, but they currently
remain far behind the state-of-the-art in large-scale text-to-image synthesis.
This paper aims to identify the necessary steps to regain competitiveness. Our
proposed model, StyleGAN-T, addresses the specific requirements of large-scale
text-to-image synthesis, such as large capacity, stable training on diverse
datasets, strong text alignment, and controllable variation vs. text alignment
tradeoff. StyleGAN-T significantly improves over previous GANs and outperforms
distilled diffusion models - the previous state-of-the-art in fast
text-to-image synthesis - in terms of sample quality and speed.
- Abstract(参考訳): テキストから画像への合成は、最近、大規模な事前学習された言語モデル、大規模トレーニングデータ、拡散や自己回帰モデルのようなスケーラブルなモデルファミリの導入により、大きな進歩を遂げている。
しかしながら、ベストパフォーマンスモデルには、単一のサンプルを生成するために反復的な評価が必要となる。
対照的に、GAN(Generative Adversarial Network)は単一のフォワードパスのみを必要とする。
これらは非常に高速だが、現在、大規模なテキスト・画像合成の最先端には程遠い。
本稿では,競争力を取り戻すために必要なステップを特定することを目的とする。
提案するモデルであるstylegan-tは,大容量化,多種多様なデータセットに対する安定したトレーニング,強いテキストアライメント,制御可能な変動とテキストアライメントトレードオフといった,大規模テキスト対イメージ合成の具体的な要件に対処する。
StyleGAN-Tは、サンプルの品質と速度の観点から、以前のGANよりも大幅に改善し、蒸留拡散モデル(高速テキスト・画像合成における最先端技術)より優れています。
関連論文リスト
- eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。
テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (2022-05-23T17:42:53Z) - Recurrent Affine Transformation for Text-to-image Synthesis [5.256132101498471]
既存の方法は通常、適切なテキスト情報を分離された融合ブロックで合成プロセスに適応的に融合する。
本稿では、全ての融合ブロックをリカレントニューラルネットワークに接続し、長期的依存をモデル化する、ジェネレーティブ・アドリラル・ネットワークのためのリカレントアフィン変換(RAT)を提案する。
テキスト記述は、一致する画像領域を認識して、より関連性の高い画像コンテンツを合成するためにジェネレータを監督する。
論文 参考訳(メタデータ) (2022-04-22T03:49:47Z) - LAFITE: Towards Language-Free Training for Text-to-Image Generation [83.2935513540494]
テキストデータなしでテキストから画像への生成モデルをトレーニングするための最初の作業を提案する。
提案手法は,CLIPモデルのマルチモーダルなセマンティック空間の整合性を活用している。
我々は,標準的なテキスト・画像生成タスクにおいて,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-27T01:54:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。