論文の概要: Text to Image Synthesis using Stacked Conditional Variational
Autoencoders and Conditional Generative Adversarial Networks
- arxiv url: http://arxiv.org/abs/2207.03332v1
- Date: Wed, 6 Jul 2022 13:43:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-08 15:02:49.050746
- Title: Text to Image Synthesis using Stacked Conditional Variational
Autoencoders and Conditional Generative Adversarial Networks
- Title(参考訳): 重畳条件変分オートエンコーダと条件生成逆ネットワークを用いたテキスト・画像合成
- Authors: Haileleol Tibebu, Aadin Malik, Varuna De Silva
- Abstract要約: 現在のテキストから画像合成アプローチは、テキスト記述子を表す高解像度のイメージを生成できない。
本研究では、条件付きVAEを初期生成器として使用し、テキスト記述子の高レベルスケッチを生成する。
提案アーキテクチャは,条件付拡張と条件付きGANネットワーク上の残差ブロックの利点を生かし,その結果を得た。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthesizing a realistic image from textual description is a major challenge
in computer vision. Current text to image synthesis approaches falls short of
producing a highresolution image that represent a text descriptor. Most
existing studies rely either on Generative Adversarial Networks (GANs) or
Variational Auto Encoders (VAEs). GANs has the capability to produce sharper
images but lacks the diversity of outputs, whereas VAEs are good at producing a
diverse range of outputs, but the images generated are often blurred. Taking
into account the relative advantages of both GANs and VAEs, we proposed a new
stacked Conditional VAE (CVAE) and Conditional GAN (CGAN) network architecture
for synthesizing images conditioned on a text description. This study uses
Conditional VAEs as an initial generator to produce a high-level sketch of the
text descriptor. This high-level sketch output from first stage and a text
descriptor is used as an input to the conditional GAN network. The second stage
GAN produces a 256x256 high resolution image. The proposed architecture
benefits from a conditioning augmentation and a residual block on the
Conditional GAN network to achieve the results. Multiple experiments were
conducted using CUB and Oxford-102 dataset and the result of the proposed
approach is compared against state-ofthe-art techniques such as StackGAN. The
experiments illustrate that the proposed method generates a high-resolution
image conditioned on text descriptions and yield competitive results based on
Inception and Frechet Inception Score using both datasets
- Abstract(参考訳): テキスト記述から現実的なイメージを合成することは、コンピュータビジョンの大きな課題である。
現在のテキストから画像合成アプローチは、テキスト記述子を表す高解像度のイメージを生成できない。
既存の研究の多くは、GAN (Generative Adversarial Networks) またはVAE (variantal Auto Encoders) に依存している。
GANはよりシャープな画像を生成する能力を持っているが、出力の多様性に欠けており、VAEは多様な出力を生成するのに長けているが、生成される画像はしばしばぼやけている。
GANとVAEの双方の相対的優位性を考慮し,テキスト記述に条件付き画像を合成するための,CVAE(Conditional VAE)とCGAN(Conditional GAN)ネットワークアーキテクチャを提案する。
本研究では条件付きvaesを初期生成器として用い,テキスト記述子の高レベルなスケッチを作成する。
第1ステージから出力される高レベルスケッチ及びテキスト記述子を条件付きganネットワークへの入力として使用する。
第2ステージGANは256x256高解像度画像を生成する。
提案アーキテクチャは,条件付拡張と条件付きGANネットワーク上の残差ブロックの利点を生かし,その結果を得た。
CUBとOxford-102データセットを用いて複数の実験を行い、提案手法の結果をStackGANのような最先端技術と比較した。
提案手法がテキスト記述に基づく高分解能画像を生成し,両者のデータセットを用いたインセプションとフレシェットインセプションスコアに基づく競合結果が得られることを示す。
関連論文リスト
- Improving Scene Text Image Super-resolution via Dual Prior Modulation
Network [20.687100711699788]
Scene Text Image Super- resolution (STISR) はテキスト画像の解像度と可視性を同時に向上することを目的としている。
既存のアプローチは、シーンテキストのセマンティックな決定性の境界であるテキストのグローバルな構造を無視している。
我々の研究はDPMN(Dual Prior Modulation Network)と呼ばれるプラグイン・アンド・プレイ・モジュールを提案する。
論文 参考訳(メタデータ) (2023-02-21T02:59:37Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - OptGAN: Optimizing and Interpreting the Latent Space of the Conditional
Text-to-Image GANs [8.26410341981427]
生成したサンプルが信頼でき、現実的、あるいは自然であることを保証する方法について研究する。
本稿では,条件付きテキスト・ツー・イメージGANアーキテクチャの潜在空間における意味論的理解可能な方向を識別するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-25T20:00:33Z) - Cycle-Consistent Inverse GAN for Text-to-Image Synthesis [101.97397967958722]
本稿では,テキスト・ツー・イメージ・ジェネレーションとテキスト・ガイドによる画像操作を行うために,Cycle-Consistent Inverse GANの統一フレームワークを提案する。
我々は、GANの反転モデルを学び、画像をGANの潜在空間に変換し、各画像の反転潜在符号を得る。
テキスト誘導最適化モジュールでは、反転潜在符号を最適化することにより、所望のセマンティック属性を持つ画像を生成する。
論文 参考訳(メタデータ) (2021-08-03T08:38:16Z) - Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。
本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文 参考訳(メタデータ) (2021-04-18T16:56:07Z) - Aggregated Contextual Transformations for High-Resolution Image
Inpainting [57.241749273816374]
画像の高精細化のための拡張GANモデルAggregated Contextual-Transformation GAN (AOT-GAN)を提案する。
そこで,提案するAOTブロックの複数のレイヤを積み重ねることで,AOT-GANのジェネレータを構築する。
テクスチャ合成を改善するため,AOT-GANの識別をマスク予測タスクでトレーニングすることで強化する。
論文 参考訳(メタデータ) (2021-04-03T15:50:17Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z) - Image-to-Image Translation with Text Guidance [139.41321867508722]
本研究の目的は,制御可能な因子,すなわち自然言語記述を生成的敵ネットワークを用いた画像から画像への変換に組み込むことである。
提案する4つのキーコンポーネントは,(1)非意味的単語をフィルタリングする部分音声タグの実装,(2) 異なるモダリティテキストと画像特徴を効果的に融合するアフィン結合モジュールの採用,(3) 識別器の差分能力と生成器の整形能力を高めるための改良された多段階アーキテクチャである。
論文 参考訳(メタデータ) (2020-02-12T21:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。