論文の概要: TediGAN: Text-Guided Diverse Face Image Generation and Manipulation
- arxiv url: http://arxiv.org/abs/2012.03308v3
- Date: Mon, 29 Mar 2021 06:40:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-21 14:01:16.088362
- Title: TediGAN: Text-Guided Diverse Face Image Generation and Manipulation
- Title(参考訳): TediGAN: テキストガイドによる横顔画像生成と操作
- Authors: Weihao Xia and Yujiu Yang and Jing-Hao Xue and Baoyuan Wu
- Abstract要約: TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
- 参考スコア(独自算出の注目度): 52.83401421019309
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we propose TediGAN, a novel framework for multi-modal image
generation and manipulation with textual descriptions. The proposed method
consists of three components: StyleGAN inversion module, visual-linguistic
similarity learning, and instance-level optimization. The inversion module maps
real images to the latent space of a well-trained StyleGAN. The
visual-linguistic similarity learns the text-image matching by mapping the
image and text into a common embedding space. The instance-level optimization
is for identity preservation in manipulation. Our model can produce diverse and
high-quality images with an unprecedented resolution at 1024. Using a control
mechanism based on style-mixing, our TediGAN inherently supports image
synthesis with multi-modal inputs, such as sketches or semantic labels, with or
without instance guidance. To facilitate text-guided multi-modal synthesis, we
propose the Multi-Modal CelebA-HQ, a large-scale dataset consisting of real
face images and corresponding semantic segmentation map, sketch, and textual
descriptions. Extensive experiments on the introduced dataset demonstrate the
superior performance of our proposed method. Code and data are available at
https://github.com/weihaox/TediGAN.
- Abstract(参考訳): 本研究では,マルチモーダル画像生成とテキスト記述による操作のための新しいフレームワークであるTediGANを提案する。
提案手法は,StyleGANインバージョンモジュール,視覚言語的類似性学習,インスタンスレベルの最適化の3つのコンポーネントから構成される。
反転モジュールは、よく訓練されたStyleGANの潜在空間に実画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるアイデンティティの保存である。
われわれのモデルは、1024で前例のない解像度で、多様で高品質な画像を生成できる。
スタイルミキシングに基づく制御機構を用いて、私たちのTediGANは本質的に、スケッチやセマンティックラベルなどのマルチモーダル入力による画像合成をインスタンスガイダンスの有無でサポートしています。
テキスト誘導型マルチモーダル合成を容易にするために,実顔画像と対応する意味セグメンテーションマップ,スケッチ,テキスト記述からなる大規模データセットであるマルチモーダルceleba-hqを提案する。
導入したデータセットに関する広範囲な実験により,提案手法の優れた性能を示す。
コードとデータはhttps://github.com/weihaox/tedigan.comで入手できる。
関連論文リスト
- Natural Language Supervision for Low-light Image Enhancement [0.0]
画像に対応するテキストから特徴マップを学習する自然言語スーパービジョン(NLS)戦略を導入する。
また、画像領域と文語との接続を組み込んだテキスト誘導条件設定機構(TCM)を設計する。
様々なレベルの画像やテキスト情報から特徴を効果的に識別し、マージするために、情報融合注意(IFA)モジュールを設計する。
論文 参考訳(メタデータ) (2025-01-11T13:53:10Z) - Generating Multimodal Images with GAN: Integrating Text, Image, and Style [7.481665175881685]
GAN(Generative Adversarial Networks)に基づくマルチモーダル画像生成手法を提案する。
この方法は、テキストエンコーダ、画像特徴抽出器、スタイル統合モジュールの設計を含む。
実験結果から,提案手法は複数の公開データセットにまたがって,高い明瞭度と一貫性を有する画像を生成することがわかった。
論文 参考訳(メタデータ) (2025-01-04T02:51:28Z) - SceneComposer: Any-Level Semantic Image Synthesis [80.55876413285587]
任意の精度のセマンティックレイアウトから条件付き画像合成のための新しいフレームワークを提案する。
このフレームワークは、形状情報のない最低レベルのテキスト・トゥ・イメージ(T2I)に自然に還元され、最高レベルのセグメンテーション・トゥ・イメージ(S2I)となる。
本稿では,この新たなセットアップの課題に対処する,新しいテクニックをいくつか紹介する。
論文 参考訳(メタデータ) (2022-11-21T18:59:05Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - More Control for Free! Image Synthesis with Semantic Diffusion Guidance [79.88929906247695]
制御可能な画像合成モデルは、サンプル画像からテキスト命令やガイダンスに基づいて多様な画像を作成することができる。
セマンティックな拡散誘導のための新しい統合フレームワークを導入し、言語や画像の誘導、あるいはその両方を可能にした。
FFHQとLSUNのデータセットで実験を行い、微細なテキスト誘導画像合成結果を示す。
論文 参考訳(メタデータ) (2021-12-10T18:55:50Z) - Cycle-Consistent Inverse GAN for Text-to-Image Synthesis [101.97397967958722]
本稿では,テキスト・ツー・イメージ・ジェネレーションとテキスト・ガイドによる画像操作を行うために,Cycle-Consistent Inverse GANの統一フレームワークを提案する。
我々は、GANの反転モデルを学び、画像をGANの潜在空間に変換し、各画像の反転潜在符号を得る。
テキスト誘導最適化モジュールでは、反転潜在符号を最適化することにより、所望のセマンティック属性を持つ画像を生成する。
論文 参考訳(メタデータ) (2021-08-03T08:38:16Z) - Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。
本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文 参考訳(メタデータ) (2021-04-18T16:56:07Z) - Learning Multimodal Affinities for Textual Editing in Images [18.7418059568887]
文書イメージにおけるテキストエンティティ間のマルチモーダルな親和性を学ぶための汎用的な非監視手法を考案する。
次に、これらの学習親和性を使用して、画像内のテキストエンティティを異なるセマンティックグループに自動的にクラスタ化する。
本手法は,幅広い文書にまたがる高度に多様な画像に対して動作可能であり,様々な編集操作に適用可能であることを示す。
論文 参考訳(メタデータ) (2021-03-18T10:09:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。