論文の概要: Text-to-Image GAN with Pretrained Representations
- arxiv url: http://arxiv.org/abs/2501.00116v1
- Date: Mon, 30 Dec 2024 19:30:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:17:27.620222
- Title: Text-to-Image GAN with Pretrained Representations
- Title(参考訳): 事前制約付き表現付きテキスト対画像GAN
- Authors: Xiaozhou You, Jian Zhang,
- Abstract要約: 事前訓練された表現を持つテキスト・ツー・イメージのGANを提案する。
視覚を動力とする識別器は複雑なシーン理解能力を吸収する。
高容量ジェネレータは、複数の新しい高容量核融合ブロックから構成される。
- 参考スコア(独自算出の注目度): 4.435186990319961
- License:
- Abstract: Generating desired images conditioned on given text descriptions has received lots of attention. Recently, diffusion models and autoregressive models have demonstrated their outstanding expressivity and gradually replaced GAN as the favored architectures for text-to-image synthesis. However, they still face some obstacles: slow inference speed and expensive training costs. To achieve more powerful and faster text-to-image synthesis under complex scenes, we propose TIGER, a text-to-image GAN with pretrained representations. To be specific, we propose a vision-empowered discriminator and a high-capacity generator. (i) The vision-empowered discriminator absorbs the complex scene understanding ability and the domain generalization ability from pretrained vision models to enhance model performance. Unlike previous works, we explore stacking multiple pretrained models in our discriminator to collect multiple different representations. (ii) The high-capacity generator aims to achieve effective text-image fusion while increasing the model capacity. The high-capacity generator consists of multiple novel high-capacity fusion blocks (HFBlock). And the HFBlock contains several deep fusion modules and a global fusion module, which play different roles to benefit our model. Extensive experiments demonstrate the outstanding performance of our proposed TIGER both on standard and zero-shot text-to-image synthesis tasks. On the standard text-to-image synthesis task, TIGER achieves state-of-the-art performance on two challenging datasets, which obtain a new FID 5.48 (COCO) and 9.38 (CUB). On the zero-shot text-to-image synthesis task, we achieve comparable performance with fewer model parameters, smaller training data size and faster inference speed. Additionally, more experiments and analyses are conducted in the Supplementary Material.
- Abstract(参考訳): 与えられたテキスト記述に条件付けされた所望の画像を生成することは、多くの注目を集めている。
近年, 拡散モデルや自己回帰モデルは, 顕著な表現性を示し, テキストから画像への合成に好まれるアーキテクチャとして, GANを徐々に置き換えている。
しかし、推論速度の遅さや高価なトレーニングコストなど、いくつかの障害に直面している。
複雑なシーン下でより強力で高速なテキスト・ツー・イメージ合成を実現するために,事前訓練された表現を持つテキスト・ツー・イメージGANであるTIGERを提案する。
具体的には,視覚駆動型判別器と高容量発電機を提案する。
一 視覚を用いた判別器は、事前学習された視覚モデルから複雑なシーン理解能力と領域一般化能力を吸収し、モデル性能を向上させる。
従来の研究とは異なり、複数の事前学習されたモデルを識別器に積み重ねて、複数の異なる表現を収集する。
2) 高容量発電装置は, モデル容量を増大させながら, 効率的なテキスト画像融合を実現することを目的としている。
高容量ジェネレータは、複数の新しい高容量核融合ブロック(HFBlock)から構成される。
HFBlockには、いくつかの深層核融合モジュールとグローバル核融合モジュールが含まれています。
広汎な実験は、標準およびゼロショットテキスト-画像合成タスクの両方において提案したTIGERの卓越した性能を示す。
標準的なテキストと画像の合成タスクでは、TIGERは2つの挑戦的なデータセットに対して最先端のパフォーマンスを達成し、新しいFID 5.48(COCO)と9.38(CUB)を得る。
ゼロショットテキスト・画像合成タスクでは、モデルパラメータが少なく、トレーニングデータサイズが小さく、推論速度が速く、同等のパフォーマンスを実現する。
さらに、補助材料にさらなる実験と分析が実施されている。
関連論文リスト
- Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.06970466554273]
本稿では,非自己回帰型マスク画像モデリング(MIM)をSDXLのような最先端拡散モデルに匹敵するレベルまで高めるMeissonicを提案する。
高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いる。
我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文 参考訳(メタデータ) (2024-10-10T17:59:17Z) - TextCraftor: Your Text Encoder Can be Image Quality Controller [65.27457900325462]
拡散に基づくテキスト・画像生成モデル(例えば、安定拡散)は、コンテンツ生成の分野に革命をもたらした。
本研究では,テキスト・ツー・イメージ拡散モデルの性能を向上させるための微調整手法であるTextCraftorを提案する。
論文 参考訳(メタデータ) (2024-03-27T19:52:55Z) - Synth$^2$: Boosting Visual-Language Models with Synthetic Captions and Image Embeddings [16.28853186016663]
効率的な視覚言語モデル(VLM)トレーニングのための合成画像テキストペアを作成する。
本手法では,LLMが生成したキャプションから画像埋め込みを合成するために,事前訓練されたテキスト・ツー・イメージモデルを用いる。
我々のVLMは、人工的なデータに基づいて微調整され、人間に注釈付けされたデータにのみ訓練されたモデルに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2024-03-12T15:36:42Z) - E$^{2}$GAN: Efficient Training of Efficient GANs for Image-to-Image Translation [69.72194342962615]
拡散モデルからGANを蒸留するプロセスは、より効率的にできるのか?
まず、一般化された特徴を持つベースGANモデルを構築し、微調整により異なる概念に適応し、スクラッチからトレーニングの必要性を排除した。
第2に,ベースモデル全体の微調整を行うのではなく,低ランク適応(LoRA)を簡易かつ効果的なランク探索プロセスで行う。
第3に、微調整に必要な最小限のデータ量を調査し、トレーニング時間を短縮する。
論文 参考訳(メタデータ) (2024-01-11T18:59:14Z) - Wuerstchen: An Efficient Architecture for Large-Scale Text-to-Image
Diffusion Models [6.821399706256863]
W"urstchen"は、競争性能と前例のない費用対効果を組み合わせたテキスト対画像合成の新しいアーキテクチャである。
我々の研究の重要な貢献は、詳細だが非常にコンパクトなセマンティックイメージ表現を学習する潜伏拡散技術を開発することである。
論文 参考訳(メタデータ) (2023-06-01T13:00:53Z) - StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale
Text-to-Image Synthesis [54.39789900854696]
StyleGAN-Tは大規模なテキスト・画像合成の要求に対処する。
従来のGANよりも大幅に改善され、サンプルの品質と速度の点で蒸留拡散モデルより優れていた。
論文 参考訳(メタデータ) (2023-01-23T16:05:45Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - DiVAE: Photorealistic Images Synthesis with Denoising Diffusion Decoder [73.1010640692609]
本稿では,拡散デコーダ(DiVAE)を用いたVQ-VAEアーキテクチャモデルを提案する。
我々のモデルは最先端の成果を達成し、さらに多くのフォトリアリスティックな画像を生成する。
論文 参考訳(メタデータ) (2022-06-01T10:39:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。