Fugu-MT 論文翻訳(概要): StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-Image Synthesis

論文の概要: StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-Image Synthesis

arxiv url: http://arxiv.org/abs/2301.09515v1
Date: Mon, 23 Jan 2023 16:05:45 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-24 13:08:02.846690
Title: StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-Image Synthesis
Title（参考訳）: StyleGAN-T: 大規模テキスト・画像合成のためのGANのアンロック
Authors: Axel Sauer, Tero Karras, Samuli Laine, Andreas Geiger, Timo Aila
Abstract要約: StyleGAN-Tは大規模なテキスト・画像合成の要求に対処する。従来のGANよりも大幅に改善され、サンプルの品質と速度の点で蒸留拡散モデルより優れていた。
参考スコア（独自算出の注目度）: 54.39789900854696
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text-to-image synthesis has recently seen significant progress thanks to large pretrained language models, large-scale training data, and the introduction of scalable model families such as diffusion and autoregressive models. However, the best-performing models require iterative evaluation to generate a single sample. In contrast, generative adversarial networks (GANs) only need a single forward pass. They are thus much faster, but they currently remain far behind the state-of-the-art in large-scale text-to-image synthesis. This paper aims to identify the necessary steps to regain competitiveness. Our proposed model, StyleGAN-T, addresses the specific requirements of large-scale text-to-image synthesis, such as large capacity, stable training on diverse datasets, strong text alignment, and controllable variation vs. text alignment tradeoff. StyleGAN-T significantly improves over previous GANs and outperforms distilled diffusion models - the previous state-of-the-art in fast text-to-image synthesis - in terms of sample quality and speed.
Abstract（参考訳）: テキストから画像への合成は、最近、大規模な事前学習された言語モデル、大規模トレーニングデータ、拡散や自己回帰モデルのようなスケーラブルなモデルファミリの導入により、大きな進歩を遂げている。しかしながら、ベストパフォーマンスモデルには、単一のサンプルを生成するために反復的な評価が必要となる。対照的に、GAN(Generative Adversarial Network)は単一のフォワードパスのみを必要とする。これらは非常に高速だが、現在、大規模なテキスト・画像合成の最先端には程遠い。本稿では,競争力を取り戻すために必要なステップを特定することを目的とする。提案するモデルであるstylegan-tは,大容量化,多種多様なデータセットに対する安定したトレーニング,強いテキストアライメント,制御可能な変動とテキストアライメントトレードオフといった,大規模テキスト対イメージ合成の具体的な要件に対処する。 StyleGAN-Tは、サンプルの品質と速度の観点から、以前のGANよりも大幅に改善し、蒸留拡散モデル(高速テキスト・画像合成における最先端技術)より優れています。

関連論文リスト

Text-to-Image GAN with Pretrained Representations [4.435186990319961]
事前訓練された表現を持つテキスト・ツー・イメージのGANを提案する。視覚を動力とする識別器は複雑なシーン理解能力を吸収する。高容量ジェネレータは、複数の新しい高容量核融合ブロックから構成される。
論文参考訳（メタデータ） (2024-12-30T19:30:40Z)
SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models [64.40250409933752]
我々は、SimpleSpeech 2.0と呼ばれるシンプルで効率的な非自己回帰(NAR)TSフレームワークを実装することで、過去の出版物の上に構築した。 SimpleSpeech 2は、自己回帰(AR)法と非自己回帰(NAR)法の両方の長所を効果的に組み合わせている。我々は,従来の作業と他の大規模TSモデル(SOTA)と比較して,生成性能と生成速度が大幅に向上したことを示す。
論文参考訳（メタデータ） (2024-08-25T17:07:39Z)
Synth$^2$: Boosting Visual-Language Models with Synthetic Captions and Image Embeddings [16.28853186016663]
効率的な視覚言語モデル(VLM)トレーニングのための合成画像テキストペアを作成する。本手法では,LLMが生成したキャプションから画像埋め込みを合成するために,事前訓練されたテキスト・ツー・イメージモデルを用いる。我々のVLMは、人工的なデータに基づいて微調整され、人間に注釈付けされたデータにのみ訓練されたモデルに匹敵する性能を達成する。
論文参考訳（メタデータ） (2024-03-12T15:36:42Z)
Scaling Rectified Flow Transformers for High-Resolution Image Synthesis [22.11487736315616]
整流流(rectified flow)は、データとノイズを直線で接続する最近の生成モデルである。我々は,既存のノイズサンプリング手法を改良し,それらを知覚的に関係のあるスケールに偏りを持たせることにより,整流モデルの訓練を行う。本稿では,2つのモードの重みを分離したテキスト・画像生成のためのトランスフォーマー・ベースアーキテクチャを提案する。
論文参考訳（メタデータ） (2024-03-05T18:45:39Z)
eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。 eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文参考訳（メタデータ） (2022-11-02T17:43:04Z)
Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文参考訳（メタデータ） (2022-10-25T16:22:23Z)
Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文参考訳（メタデータ） (2022-05-23T17:42:53Z)
LAFITE: Towards Language-Free Training for Text-to-Image Generation [83.2935513540494]
テキストデータなしでテキストから画像への生成モデルをトレーニングするための最初の作業を提案する。提案手法は,CLIPモデルのマルチモーダルなセマンティック空間の整合性を活用している。我々は,標準的なテキスト・画像生成タスクにおいて,最先端の結果を得る。
論文参考訳（メタデータ） (2021-11-27T01:54:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。