論文の概要: OptGAN: Optimizing and Interpreting the Latent Space of the Conditional
Text-to-Image GANs
- arxiv url: http://arxiv.org/abs/2202.12929v1
- Date: Fri, 25 Feb 2022 20:00:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-01 14:52:59.281728
- Title: OptGAN: Optimizing and Interpreting the Latent Space of the Conditional
Text-to-Image GANs
- Title(参考訳): OptGAN: 条件付きテキスト間GANの潜時空間の最適化と解釈
- Authors: Zhenxing Zhang and Lambert Schomaker
- Abstract要約: 生成したサンプルが信頼でき、現実的、あるいは自然であることを保証する方法について研究する。
本稿では,条件付きテキスト・ツー・イメージGANアーキテクチャの潜在空間における意味論的理解可能な方向を識別するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 8.26410341981427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image generation intends to automatically produce a photo-realistic
image, conditioned on a textual description. It can be potentially employed in
the field of art creation, data augmentation, photo-editing, etc. Although many
efforts have been dedicated to this task, it remains particularly challenging
to generate believable, natural scenes. To facilitate the real-world
applications of text-to-image synthesis, we focus on studying the following
three issues: 1) How to ensure that generated samples are believable, realistic
or natural? 2) How to exploit the latent space of the generator to edit a
synthesized image? 3) How to improve the explainability of a text-to-image
generation framework? In this work, we constructed two novel data sets (i.e.,
the Good & Bad bird and face data sets) consisting of successful as well as
unsuccessful generated samples, according to strict criteria. To effectively
and efficiently acquire high-quality images by increasing the probability of
generating Good latent codes, we use a dedicated Good/Bad classifier for
generated images. It is based on a pre-trained front end and fine-tuned on the
basis of the proposed Good & Bad data set. After that, we present a novel
algorithm which identifies semantically-understandable directions in the latent
space of a conditional text-to-image GAN architecture by performing independent
component analysis on the pre-trained weight values of the generator.
Furthermore, we develop a background-flattening loss (BFL), to improve the
background appearance in the edited image. Subsequently, we introduce linear
interpolation analysis between pairs of keywords. This is extended into a
similar triangular `linguistic' interpolation in order to take a deep look into
what a text-to-image synthesis model has learned within the linguistic
embeddings. Our data set is available at
https://zenodo.org/record/6283798#.YhkN_ujMI2w.
- Abstract(参考訳): テキストから画像への生成は、テキスト記述に基づくフォトリアリスティックな画像を自動的に生成することを目的としている。
これは、アート作成、データ拡張、フォト編集などの分野に応用できる可能性がある。
この課題に多くの努力が注がれているが、信じられない自然の場面を生み出すことは特に困難である。
テキスト・画像合成の現実的な応用を促進するため、以下の3つの課題に焦点をあてる。
1) 生成したサンプルが信頼性,現実性,あるいは自然であることを保証するには,どうすればよいのか?
2) 合成画像の編集に発電機の潜在空間をどのように活用するか?
3)テキスト・画像生成フレームワークの説明可能性を改善するには?
本研究では,厳格な基準に従って,成功例と失敗例からなる2つの新しいデータセット( good & bad bird と face データセット)を構築した。
良質な遅延符号を生成する確率を高めて高画質な画像を効果的に効率よく取得するために、生成した画像に専用グッド/バッド分類器を用いる。
事前訓練されたフロントエンドに基づいており、提案されているGood & Badデータセットに基づいて微調整されている。
そこで,本稿では,生成器の事前学習した重み値の独立成分分析を行うことにより,条件付きテキスト・イメージGANアーキテクチャの潜時空間における意味的理解可能な方向を同定するアルゴリズムを提案する。
さらに,編集画像の背景表示を改善するために背景フラット化損失(bfl)を開発する。
次に,キーワード対間の線形補間解析を導入する。
これは同様に三角形の「言語的」補間に拡張され、言語埋め込みの中でテキスト-画像合成モデルが何を学んだのかを深く観察する。
私たちのデータセットはhttps://zenodo.org/record/6283798#で利用可能です。
YhkN_ujMI2w。
関連論文リスト
- Visual Text Generation in the Wild [67.37458807253064]
野生で高品質なテキスト画像を生成する視覚テキスト生成装置(SceneVTG)を提案する。
提案したSceneVTGは、従来のレンダリングに基づく手法と最近の拡散に基づく手法を、忠実さと理性の観点から大きく上回っている。
生成された画像は、テキスト検出とテキスト認識を含むタスクに優れたユーティリティを提供する。
論文 参考訳(メタデータ) (2024-07-19T09:08:20Z) - Beyond Generation: Harnessing Text to Image Models for Object Detection
and Segmentation [29.274362919954218]
精度の高いラベル付きトレーニングデータを自動的に生成する新しいパラダイムを提案する。
提案手法は、トレーニングデータ生成を前景オブジェクト生成とコンテキスト的に一貫性のある背景生成に分離する。
5つのオブジェクト検出とセグメンテーションデータセットに対するアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-09-12T04:41:45Z) - Style Generation: Image Synthesis based on Coarsely Matched Texts [10.939482612568433]
テキストベースのスタイル生成と呼ばれる新しいタスクを導入し、2段階の生成対角ネットワークを提案する。
第1ステージは、文特徴付き全体画像スタイルを生成し、第2ステージは、合成特徴付きで生成されたスタイルを洗練する。
本研究は,テキスト・イメージアライメントやストーリー・ビジュアライゼーションといった様々な応用によって実証された。
論文 参考訳(メタデータ) (2023-09-08T21:51:11Z) - LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image
Generation [121.45667242282721]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。
提案手法は,フォトリアリスティックなレイアウトと画像生成の観点から,最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2023-08-09T17:45:04Z) - Optimized latent-code selection for explainable conditional
text-to-image GANs [8.26410341981427]
本稿では,条件付きテキスト・ツー・イメージGANモデルの潜時空間と意味空間を深く検討する様々な手法を提案する。
本稿では,線形SVMを用いて,優れた潜在コードを見つけるためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-27T03:12:55Z) - Cycle-Consistent Inverse GAN for Text-to-Image Synthesis [101.97397967958722]
本稿では,テキスト・ツー・イメージ・ジェネレーションとテキスト・ガイドによる画像操作を行うために,Cycle-Consistent Inverse GANの統一フレームワークを提案する。
我々は、GANの反転モデルを学び、画像をGANの潜在空間に変換し、各画像の反転潜在符号を得る。
テキスト誘導最適化モジュールでは、反転潜在符号を最適化することにより、所望のセマンティック属性を持つ画像を生成する。
論文 参考訳(メタデータ) (2021-08-03T08:38:16Z) - Learned Spatial Representations for Few-shot Talking-Head Synthesis [68.3787368024951]
複数発話頭合成のための新しいアプローチを提案する。
この異方性表現は,従来の手法よりも大幅に改善されることを示す。
論文 参考訳(メタデータ) (2021-04-29T17:59:42Z) - Text to Image Generation with Semantic-Spatial Aware GAN [41.73685713621705]
テキストから画像生成(T2I)モデルは、テキスト記述と意味的に一致するフォトリアリズム画像を生成することを目的としている。
本稿では,テキストエンコーダがより良いテキスト情報を活用できるように,エンドツーエンドで訓練された新しいフレームワークSemantic-Spatial Aware GANを提案する。
論文 参考訳(メタデータ) (2021-04-01T15:48:01Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z) - Intrinsic Autoencoders for Joint Neural Rendering and Intrinsic Image
Decomposition [67.9464567157846]
合成3Dモデルからリアルな画像を生成するためのオートエンコーダを提案し,同時に実像を本質的な形状と外観特性に分解する。
実験により, レンダリングと分解の併用処理が有益であることが確認され, 画像から画像への翻訳の質的, 定量的なベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-06-29T12:53:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。