論文の概要: DSE-GAN: Dynamic Semantic Evolution Generative Adversarial Network for
Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2209.01339v1
- Date: Sat, 3 Sep 2022 06:13:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 13:49:13.854273
- Title: DSE-GAN: Dynamic Semantic Evolution Generative Adversarial Network for
Text-to-Image Generation
- Title(参考訳): DSE-GAN:テキスト・画像生成のための動的セマンティック進化生成適応ネットワーク
- Authors: Mengqi Huang, Zhendong Mao, Penghui Wang, Quan Wang, Yongdong Zhang
- Abstract要約: 本稿では,動的セマンティック進化GAN(DSE-GAN)を提案する。
DSE-GANは2つの広く使用されているベンチマークで7.48%と37.8%のFID改善を達成した。
- 参考スコア(独自算出の注目度): 71.87682778102236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image generation aims at generating realistic images which are
semantically consistent with the given text. Previous works mainly adopt the
multi-stage architecture by stacking generator-discriminator pairs to engage
multiple adversarial training, where the text semantics used to provide
generation guidance remain static across all stages. This work argues that text
features at each stage should be adaptively re-composed conditioned on the
status of the historical stage (i.e., historical stage's text and image
features) to provide diversified and accurate semantic guidance during the
coarse-to-fine generation process. We thereby propose a novel Dynamical
Semantic Evolution GAN (DSE-GAN) to re-compose each stage's text features under
a novel single adversarial multi-stage architecture. Specifically, we design
(1) Dynamic Semantic Evolution (DSE) module, which first aggregates historical
image features to summarize the generative feedback, and then dynamically
selects words required to be re-composed at each stage as well as re-composed
them by dynamically enhancing or suppressing different granularity subspace's
semantics. (2) Single Adversarial Multi-stage Architecture (SAMA), which
extends the previous structure by eliminating complicated multiple adversarial
training requirements and therefore allows more stages of text-image
interactions, and finally facilitates the DSE module. We conduct comprehensive
experiments and show that DSE-GAN achieves 7.48\% and 37.8\% relative FID
improvement on two widely used benchmarks, i.e., CUB-200 and MSCOCO,
respectively.
- Abstract(参考訳): テキストから画像への生成は、与えられたテキストと意味的に一致する現実的な画像を生成することを目的としている。
それまでの作業では、ジェネレータと識別器のペアを積み重ねて複数の対角訓練を行ない、すべての段階にわたって生成ガイダンスを提供するテキストセマンティクスが静的なままであった。
この研究は、各段階におけるテキストの特徴は、粗大な生成過程において多様かつ正確な意味指導を提供するために、歴史的段階(例えば、歴史的段階のテキストと画像の特徴)の状況に応じて適応的に再構成されるべきであると主張している。
そこで本研究では,動的セマンティック進化GAN(Dynamical Semantic Evolution GAN, DSE-GAN)を提案する。
具体的には,(1)動的セマンティック・エボリューション(DSE)モジュールを設計し,まず歴史的画像の特徴を集約して生成フィードバックを要約し,次に各段階で再構成するために必要な単語を動的に選択し,異なる粒度部分空間のセマンティクスを動的に拡張あるいは抑制することにより再構成する。
2) 単相多段階アーキテクチャ(SAMA)は,複雑な複数対角的学習要件を排除し,テキストと画像の相互作用のより多くの段階を許容し,最終的にDSEモジュールを促進する。
我々は総合的な実験を行い、DSE-GAN が CUB-200 と MSCOCO の2つの広く使用されているベンチマークにおいて、それぞれ 7.48 % と 37.8 % の相対 FID 改善を達成することを示す。
関連論文リスト
- Story Visualization by Online Text Augmentation with Context Memory [64.86944645907771]
オンラインテキスト拡張による双方向トランスフォーマーフレームワークのための新しいメモリアーキテクチャを提案する。
提案手法は, FID, キャラクタF1, フレーム精度, BLEU-2/3, R精度など, 様々な指標において, 芸術の状態を著しく上回っている。
論文 参考訳(メタデータ) (2023-08-15T05:08:12Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - ERNIE-ViLG: Unified Generative Pre-training for Bidirectional
Vision-Language Generation [22.47279425592133]
ERNIE-ViLGは,双方向画像テキスト生成のための統合型事前学習フレームワークである。
テキスト・ツー・イメージ生成プロセスにおいて,視覚的シーケンス生成器と画像再構成器を協調的に学習するエンドツーエンド・トレーニング手法を提案する。
我々は,1億4500万(中国語)の画像テキストペアからなる大規模データセット上で,10ビリオンパラメータERNIE-ViLGモデルをトレーニングする。
論文 参考訳(メタデータ) (2021-12-31T03:53:33Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Cycle-Consistent Inverse GAN for Text-to-Image Synthesis [101.97397967958722]
本稿では,テキスト・ツー・イメージ・ジェネレーションとテキスト・ガイドによる画像操作を行うために,Cycle-Consistent Inverse GANの統一フレームワークを提案する。
我々は、GANの反転モデルを学び、画像をGANの潜在空間に変換し、各画像の反転潜在符号を得る。
テキスト誘導最適化モジュールでは、反転潜在符号を最適化することにより、所望のセマンティック属性を持つ画像を生成する。
論文 参考訳(メタデータ) (2021-08-03T08:38:16Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Text to Image Generation with Semantic-Spatial Aware GAN [41.73685713621705]
テキストから画像生成(T2I)モデルは、テキスト記述と意味的に一致するフォトリアリズム画像を生成することを目的としている。
本稿では,テキストエンコーダがより良いテキスト情報を活用できるように,エンドツーエンドで訓練された新しいフレームワークSemantic-Spatial Aware GANを提案する。
論文 参考訳(メタデータ) (2021-04-01T15:48:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。