論文の概要: Factor Decomposed Generative Adversarial Networks for Text-to-Image
Synthesis
- arxiv url: http://arxiv.org/abs/2303.13821v1
- Date: Fri, 24 Mar 2023 05:57:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 15:37:19.282303
- Title: Factor Decomposed Generative Adversarial Networks for Text-to-Image
Synthesis
- Title(参考訳): テキスト・画像合成のための因子分解型生成逆数ネットワーク
- Authors: Jiguo Li, Xiaobin Liu, Lirong Zheng
- Abstract要約: 我々はFDGAN(Facter Decomposed Generative Adversa Networks)を提案する。
まず、ノイズベクトルから画像を生成し、次に、ジェネレータと識別器の両方に正規化層に埋め込みます。
実験結果から,テキストと画像の合成において,ノイズと文の埋め込みを分解することで,遅延因子を分解することができることがわかった。
- 参考スコア(独自算出の注目度): 7.658760090153791
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Prior works about text-to-image synthesis typically concatenated the sentence
embedding with the noise vector, while the sentence embedding and the noise
vector are two different factors, which control the different aspects of the
generation. Simply concatenating them will entangle the latent factors and
encumber the generative model.
In this paper, we attempt to decompose these two factors and propose Factor
Decomposed Generative Adversarial Networks~(FDGAN). To achieve this, we firstly
generate images from the noise vector and then apply the sentence embedding in
the normalization layer for both generator and discriminators. We also design
an additive norm layer to align and fuse the text-image features. The
experimental results show that decomposing the noise and the sentence embedding
can disentangle latent factors in text-to-image synthesis, and make the
generative model more efficient. Compared with the baseline, FDGAN can achieve
better performance, while fewer parameters are used.
- Abstract(参考訳): テキストと画像の合成に関する以前の研究は、通常、文章の埋め込みとノイズベクトルを結合し、文章の埋め込みとノイズベクトルは、生成の異なる側面を制御する2つの異なる要因である。
単純にそれらを結合すれば、潜伏因子を絡み、生成モデルを包み込む。
本稿では,これら2つの要因を分解し,FDGAN(Facter Decomposed Generative Adversarial Networks)を提案する。
これを実現するために、まずノイズベクトルから画像を生成し、その後、生成者および判別者の両方に正規化層に埋め込まれた文を適用する。
また,テキスト画像機能を調整するための付加型ノルム層も設計した。
実験の結果,雑音の分解と文の埋め込みは,テキストから画像への合成において潜在因子を分離し,生成モデルをより効率的にすることが示された。
ベースラインと比較すると、FDGANは性能が向上し、パラメータが少ない。
関連論文リスト
- Generating Intermediate Representations for Compositional Text-To-Image Generation [16.757550214291015]
2つの段階に基づくテキスト・画像生成のための合成手法を提案する。
第1段階では,テキストに条件付けされた1つ以上の中間表現を生成する拡散に基づく生成モデルを設計する。
第2段階では、これらの表現をテキストとともに、別個の拡散ベース生成モデルを用いて最終出力画像にマッピングする。
論文 参考訳(メタデータ) (2024-10-13T10:24:55Z) - Contrastive Prompts Improve Disentanglement in Text-to-Image Diffusion
Models [68.47333676663312]
テキスト・ツー・イメージ・モデルにおける画像要素のアンタングル化に有効な分類器フリーガイダンスの簡単な修正法を示す。
提案手法のキーとなる考え方は、最小限のトークンで異なる2つのプロンプトを持つ意図された要因を特徴づけることである。
我々は,(1)オブジェクトクラスで訓練されたドメイン固有拡散モデル,(2)テキスト・画像生成のための連続的なリグライクな制御,(3)ゼロショット画像エディタの性能向上の3つのシナリオにおいて,その利点を説明する。
論文 参考訳(メタデータ) (2024-02-21T03:01:17Z) - SeqDiffuSeq: Text Diffusion with Encoder-Decoder Transformers [50.90457644954857]
本研究では,拡散モデルを用いてシーケンス・ツー・シーケンスのテキスト生成を行う。
シーケンス・ツー・シーケンス生成のためのテキスト拡散モデルであるSeqDiffuSeqを提案する。
実験結果は、テキストの品質と推論時間の観点から、シーケンス・ツー・シーケンス生成の優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-20T15:16:24Z) - Contrastive Learning for Diverse Disentangled Foreground Generation [67.81298739373766]
本稿では,様々な要因を明示的に制御した多種多様な前景生成手法を提案する。
我々は、暗黙の入力に対して様々なフォアグラウンド結果を生成するために、遅延符号を用いたコントラスト学習を利用する。
実験により,本手法の多様性と生成制御性において,最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-04T18:51:04Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - Describing Sets of Images with Textual-PCA [89.46499914148993]
画像の集合を意味的に記述し、単一の画像の属性とセット内のバリエーションの両方をキャプチャする。
我々の手順は原理成分分析と類似しており、射影ベクトルの役割を生成されたフレーズに置き換える。
論文 参考訳(メタデータ) (2022-10-21T17:10:49Z) - Text to Image Synthesis using Stacked Conditional Variational
Autoencoders and Conditional Generative Adversarial Networks [0.0]
現在のテキストから画像合成アプローチは、テキスト記述子を表す高解像度のイメージを生成できない。
本研究では、条件付きVAEを初期生成器として使用し、テキスト記述子の高レベルスケッチを生成する。
提案アーキテクチャは,条件付拡張と条件付きGANネットワーク上の残差ブロックの利点を生かし,その結果を得た。
論文 参考訳(メタデータ) (2022-07-06T13:43:56Z) - OptGAN: Optimizing and Interpreting the Latent Space of the Conditional
Text-to-Image GANs [8.26410341981427]
生成したサンプルが信頼でき、現実的、あるいは自然であることを保証する方法について研究する。
本稿では,条件付きテキスト・ツー・イメージGANアーキテクチャの潜在空間における意味論的理解可能な方向を識別するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-25T20:00:33Z) - Cycle-Consistent Inverse GAN for Text-to-Image Synthesis [101.97397967958722]
本稿では,テキスト・ツー・イメージ・ジェネレーションとテキスト・ガイドによる画像操作を行うために,Cycle-Consistent Inverse GANの統一フレームワークを提案する。
我々は、GANの反転モデルを学び、画像をGANの潜在空間に変換し、各画像の反転潜在符号を得る。
テキスト誘導最適化モジュールでは、反転潜在符号を最適化することにより、所望のセマンティック属性を持つ画像を生成する。
論文 参考訳(メタデータ) (2021-08-03T08:38:16Z) - Leveraging Conditional Generative Models in a General Explanation
Framework of Classifier Decisions [0.0]
2つの生成した画像の差分として視覚的説明が生成可能であることを示す。
一般定式化の2つの異なる近似と実装を提案する。
論文 参考訳(メタデータ) (2021-06-21T09:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。