論文の概要: Cycle-Consistent Inverse GAN for Text-to-Image Synthesis
- arxiv url: http://arxiv.org/abs/2108.01361v1
- Date: Tue, 3 Aug 2021 08:38:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-04 14:00:23.715397
- Title: Cycle-Consistent Inverse GAN for Text-to-Image Synthesis
- Title(参考訳): テキスト・画像合成のためのサイクル一貫性逆GAN
- Authors: Hao Wang, Guosheng Lin, Steven C. H. Hoi, Chunyan Miao
- Abstract要約: 本稿では,テキスト・ツー・イメージ・ジェネレーションとテキスト・ガイドによる画像操作を行うために,Cycle-Consistent Inverse GANの統一フレームワークを提案する。
我々は、GANの反転モデルを学び、画像をGANの潜在空間に変換し、各画像の反転潜在符号を得る。
テキスト誘導最適化モジュールでは、反転潜在符号を最適化することにより、所望のセマンティック属性を持つ画像を生成する。
- 参考スコア(独自算出の注目度): 101.97397967958722
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates an open research task of text-to-image synthesis for
automatically generating or manipulating images from text descriptions.
Prevailing methods mainly use the text as conditions for GAN generation, and
train different models for the text-guided image generation and manipulation
tasks. In this paper, we propose a novel unified framework of Cycle-consistent
Inverse GAN (CI-GAN) for both text-to-image generation and text-guided image
manipulation tasks. Specifically, we first train a GAN model without text
input, aiming to generate images with high diversity and quality. Then we learn
a GAN inversion model to convert the images back to the GAN latent space and
obtain the inverted latent codes for each image, where we introduce the
cycle-consistency training to learn more robust and consistent inverted latent
codes. We further uncover the latent space semantics of the trained GAN model,
by learning a similarity model between text representations and the latent
codes. In the text-guided optimization module, we generate images with the
desired semantic attributes by optimizing the inverted latent codes. Extensive
experiments on the Recipe1M and CUB datasets validate the efficacy of our
proposed framework.
- Abstract(参考訳): 本稿では,テキスト記述から画像を自動的に生成・操作するためのテキスト対画像合成のオープン研究課題について検討する。
一般的な方法は、主にgan生成の条件としてテキストを使用し、テキスト誘導画像生成および操作タスクの異なるモデルを訓練する。
本稿では,テキスト対画像生成タスクとテキスト誘導画像操作タスクの両方に対して,周期整合逆gan(ci-gan)の新たな統一フレームワークを提案する。
具体的には、まずテキスト入力なしでGANモデルをトレーニングし、高い多様性と品質の画像を生成する。
そして、GAN変換モデルを学び、画像をGAN潜在空間に変換し、各画像の反転潜時符号を取得し、より堅牢で一貫した逆潜時符号を学習するためのサイクル一貫性トレーニングを導入する。
さらに,テキスト表現と潜在コード間の類似性モデルを学習することにより,学習したganモデルの潜在空間意味を明らかにする。
テキスト誘導最適化モジュールでは,逆潜在符号を最適化することにより,所望の意味属性を持つ画像を生成する。
Recipe1MとCUBデータセットの大規模な実験により,提案手法の有効性が検証された。
関連論文リスト
- eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - Paired Cross-Modal Data Augmentation for Fine-Grained Image-to-Text
Retrieval [142.047662926209]
本稿では,StyleGAN2モデルの隠れセマンティック情報を明らかにすることによって,ペアデータ拡張のための新しいフレームワークを提案する。
ランダムなトークン置換によって拡張テキストを生成し、拡張テキストを潜在空間アライメントモジュールに渡す。
我々は,2つのパブリックなクロスモーダル検索データセットに対する拡張データアプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-07-29T01:21:54Z) - ERNIE-ViLG: Unified Generative Pre-training for Bidirectional
Vision-Language Generation [22.47279425592133]
ERNIE-ViLGは,双方向画像テキスト生成のための統合型事前学習フレームワークである。
テキスト・ツー・イメージ生成プロセスにおいて,視覚的シーケンス生成器と画像再構成器を協調的に学習するエンドツーエンド・トレーニング手法を提案する。
我々は,1億4500万(中国語)の画像テキストペアからなる大規模データセット上で,10ビリオンパラメータERNIE-ViLGモデルをトレーニングする。
論文 参考訳(メタデータ) (2021-12-31T03:53:33Z) - DAE-GAN: Dynamic Aspect-aware GAN for Text-to-Image Synthesis [55.788772366325105]
本研究では,文レベル,単語レベル,アスペクトレベルを含む複数の粒度からテキスト情報を包括的に表現する動的アスペクト・アワーン(DAE-GAN)を提案する。
人間の学習行動にインスパイアされた画像改善のためのADR(Aspect-aware Dynamic Re-drawer)を開発し,AGR(Attended Global Refinement)モジュールとALR(Aspect-aware Local Refinement)モジュールを交互に使用する。
論文 参考訳(メタデータ) (2021-08-27T07:20:34Z) - Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。
本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文 参考訳(メタデータ) (2021-04-18T16:56:07Z) - Text to Image Generation with Semantic-Spatial Aware GAN [41.73685713621705]
テキストから画像生成(T2I)モデルは、テキスト記述と意味的に一致するフォトリアリズム画像を生成することを目的としている。
本稿では,テキストエンコーダがより良いテキスト情報を活用できるように,エンドツーエンドで訓練された新しいフレームワークSemantic-Spatial Aware GANを提案する。
論文 参考訳(メタデータ) (2021-04-01T15:48:01Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。