論文の概要: Towards Open-World Text-Guided Face Image Generation and Manipulation
- arxiv url: http://arxiv.org/abs/2104.08910v1
- Date: Sun, 18 Apr 2021 16:56:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 13:35:39.991456
- Title: Towards Open-World Text-Guided Face Image Generation and Manipulation
- Title(参考訳): オープンワールド型テキストガイド顔画像生成と操作に向けて
- Authors: Weihao Xia, Yujiu Yang, Jing-Hao Xue, Baoyuan Wu
- Abstract要約: 顔画像生成と操作の両方に統一的なフレームワークを提案する。
本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
- 参考スコア(独自算出の注目度): 52.83401421019309
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The existing text-guided image synthesis methods can only produce limited
quality results with at most \mbox{$\text{256}^2$} resolution and the textual
instructions are constrained in a small Corpus. In this work, we propose a
unified framework for both face image generation and manipulation that produces
diverse and high-quality images with an unprecedented resolution at 1024 from
multimodal inputs. More importantly, our method supports open-world scenarios,
including both image and text, without any re-training, fine-tuning, or
post-processing. To be specific, we propose a brand new paradigm of text-guided
image generation and manipulation based on the superior characteristics of a
pretrained GAN model. Our proposed paradigm includes two novel strategies. The
first strategy is to train a text encoder to obtain latent codes that align
with the hierarchically semantic of the aforementioned pretrained GAN model.
The second strategy is to directly optimize the latent codes in the latent
space of the pretrained GAN model with guidance from a pretrained language
model. The latent codes can be randomly sampled from a prior distribution or
inverted from a given image, which provides inherent supports for both image
generation and manipulation from multi-modal inputs, such as sketches or
semantic labels, with textual guidance. To facilitate text-guided multi-modal
synthesis, we propose the Multi-Modal CelebA-HQ, a large-scale dataset
consisting of real face images and corresponding semantic segmentation map,
sketch, and textual descriptions. Extensive experiments on the introduced
dataset demonstrate the superior performance of our proposed method. Code and
data are available at https://github.com/weihaox/TediGAN.
- Abstract(参考訳): 既存のテキスト誘導画像合成法は、最大で \mbox{$\text{256}^2$} の解像度で限られた品質結果しか生成できず、テキスト命令は小さなコーパスで制約される。
本研究では,マルチモーダル入力から1024の解像度で,多彩で高品質な画像を生成する顔画像生成と操作のための統一的なフレームワークを提案する。
さらに重要なことは、我々の方法は、再トレーニング、微調整、後処理なしに、画像とテキストの両方を含むオープンワールドシナリオをサポートします。
具体的には,事前学習されたganモデルの優れた特性に基づくテキスト誘導画像生成と操作の新しいパラダイムを提案する。
提案するパラダイムには2つの新しい戦略が含まれている。
最初の戦略はテキストエンコーダを訓練して、前述の事前訓練されたGANモデルの階層的意味と整合した潜在コードを取得することである。
第2の戦略は、事前訓練された言語モデルからのガイダンスにより、事前訓練されたGANモデルの潜時空間における潜時符号を直接最適化することである。
潜在コードは、事前分布からランダムにサンプリングしたり、所定の画像から反転したりすることができ、スケッチや意味ラベルといったマルチモーダル入力からのイメージ生成と操作の両方をテキストによるガイダンスでネイティブにサポートする。
テキスト誘導型マルチモーダル合成を容易にするために,実顔画像と対応する意味セグメンテーションマップ,スケッチ,テキスト記述からなる大規模データセットであるマルチモーダルceleba-hqを提案する。
導入したデータセットに関する広範囲な実験により,提案手法の優れた性能を示す。
コードとデータはhttps://github.com/weihaox/tedigan.comで入手できる。
関連論文リスト
- TextCLIP: Text-Guided Face Image Generation And Manipulation Without
Adversarial Training [5.239585892767183]
本研究では,テキスト誘導画像生成と操作のための統合フレームワークであるTextCLIPを提案する。
提案手法は,テキスト誘導型生成タスクと操作タスクの両方において,既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-09-21T09:34:20Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - SceneComposer: Any-Level Semantic Image Synthesis [80.55876413285587]
任意の精度のセマンティックレイアウトから条件付き画像合成のための新しいフレームワークを提案する。
このフレームワークは、形状情報のない最低レベルのテキスト・トゥ・イメージ(T2I)に自然に還元され、最高レベルのセグメンテーション・トゥ・イメージ(S2I)となる。
本稿では,この新たなセットアップの課題に対処する,新しいテクニックをいくつか紹介する。
論文 参考訳(メタデータ) (2022-11-21T18:59:05Z) - LDEdit: Towards Generalized Text Guided Image Manipulation via Latent
Diffusion Models [12.06277444740134]
フレキシブルテキスト入力を持つ単一モデルを用いた汎用画像操作は非常に望ましい。
最近の研究は、事前学習された視覚言語エンコーダを用いて、ジェネリックイメージで訓練された生成モデルを導くことで、この課題に対処している。
本稿では,テキストプロンプトから画像の汎用的な操作を行うための最適化不要な手法を提案する。
論文 参考訳(メタデータ) (2022-10-05T13:26:15Z) - More Control for Free! Image Synthesis with Semantic Diffusion Guidance [79.88929906247695]
制御可能な画像合成モデルは、サンプル画像からテキスト命令やガイダンスに基づいて多様な画像を作成することができる。
セマンティックな拡散誘導のための新しい統合フレームワークを導入し、言語や画像の誘導、あるいはその両方を可能にした。
FFHQとLSUNのデータセットで実験を行い、微細なテキスト誘導画像合成結果を示す。
論文 参考訳(メタデータ) (2021-12-10T18:55:50Z) - Cycle-Consistent Inverse GAN for Text-to-Image Synthesis [101.97397967958722]
本稿では,テキスト・ツー・イメージ・ジェネレーションとテキスト・ガイドによる画像操作を行うために,Cycle-Consistent Inverse GANの統一フレームワークを提案する。
我々は、GANの反転モデルを学び、画像をGANの潜在空間に変換し、各画像の反転潜在符号を得る。
テキスト誘導最適化モジュールでは、反転潜在符号を最適化することにより、所望のセマンティック属性を持つ画像を生成する。
論文 参考訳(メタデータ) (2021-08-03T08:38:16Z) - Text to Image Generation with Semantic-Spatial Aware GAN [41.73685713621705]
テキストから画像生成(T2I)モデルは、テキスト記述と意味的に一致するフォトリアリズム画像を生成することを目的としている。
本稿では,テキストエンコーダがより良いテキスト情報を活用できるように,エンドツーエンドで訓練された新しいフレームワークSemantic-Spatial Aware GANを提案する。
論文 参考訳(メタデータ) (2021-04-01T15:48:01Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。