Fugu-MT 論文翻訳(概要): TediGAN: Text-Guided Diverse Face Image Generation and Manipulation

論文の概要: TediGAN: Text-Guided Diverse Face Image Generation and Manipulation

arxiv url: http://arxiv.org/abs/2012.03308v3
Date: Mon, 29 Mar 2021 06:40:59 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-21 14:01:16.088362
Title: TediGAN: Text-Guided Diverse Face Image Generation and Manipulation
Title（参考訳）: TediGAN: テキストガイドによる横顔画像生成と操作
Authors: Weihao Xia and Yujiu Yang and Jing-Hao Xue and Baoyuan Wu
Abstract要約: TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。 StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
参考スコア（独自算出の注目度）: 52.83401421019309
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we propose TediGAN, a novel framework for multi-modal image generation and manipulation with textual descriptions. The proposed method consists of three components: StyleGAN inversion module, visual-linguistic similarity learning, and instance-level optimization. The inversion module maps real images to the latent space of a well-trained StyleGAN. The visual-linguistic similarity learns the text-image matching by mapping the image and text into a common embedding space. The instance-level optimization is for identity preservation in manipulation. Our model can produce diverse and high-quality images with an unprecedented resolution at 1024. Using a control mechanism based on style-mixing, our TediGAN inherently supports image synthesis with multi-modal inputs, such as sketches or semantic labels, with or without instance guidance. To facilitate text-guided multi-modal synthesis, we propose the Multi-Modal CelebA-HQ, a large-scale dataset consisting of real face images and corresponding semantic segmentation map, sketch, and textual descriptions. Extensive experiments on the introduced dataset demonstrate the superior performance of our proposed method. Code and data are available at https://github.com/weihaox/TediGAN.
Abstract（参考訳）: 本研究では,マルチモーダル画像生成とテキスト記述による操作のための新しいフレームワークであるTediGANを提案する。提案手法は,StyleGANインバージョンモジュール,視覚言語的類似性学習,インスタンスレベルの最適化の3つのコンポーネントから構成される。反転モジュールは、よく訓練されたStyleGANの潜在空間に実画像をマッピングする。視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。インスタンスレベルの最適化は、操作におけるアイデンティティの保存である。われわれのモデルは、1024で前例のない解像度で、多様で高品質な画像を生成できる。スタイルミキシングに基づく制御機構を用いて、私たちのTediGANは本質的に、スケッチやセマンティックラベルなどのマルチモーダル入力による画像合成をインスタンスガイダンスの有無でサポートしています。テキスト誘導型マルチモーダル合成を容易にするために,実顔画像と対応する意味セグメンテーションマップ,スケッチ,テキスト記述からなる大規模データセットであるマルチモーダルceleba-hqを提案する。導入したデータセットに関する広範囲な実験により,提案手法の優れた性能を示す。コードとデータはhttps://github.com/weihaox/tedigan.comで入手できる。

関連論文リスト

Multimodal Representation Alignment for Image Generation: Text-Image Interleaved Control Is Easier Than You Think [38.258453761376586]
本稿では,画像生成モデルにおける任意のテキストイメージインターリーブド制御のための効率的なフレームワークであるDream Engineを提案する。提案手法は,テキスト・イメージアライメントとマルチモーダル・インターリーブド・インストラクション・チューニングからなる2段階の訓練パラダイムを利用する。本手法は,GenEvalベンチマークで0.69点の総合スコアを達成し,有効であることを示す。
論文参考訳（メタデータ） (2025-02-27T15:08:39Z)
Natural Language Supervision for Low-light Image Enhancement [0.0]
画像に対応するテキストから特徴マップを学習する自然言語スーパービジョン(NLS)戦略を導入する。また、画像領域と文語との接続を組み込んだテキスト誘導条件設定機構(TCM)を設計する。様々なレベルの画像やテキスト情報から特徴を効果的に識別し、マージするために、情報融合注意(IFA)モジュールを設計する。
論文参考訳（メタデータ） (2025-01-11T13:53:10Z)
Generating Multimodal Images with GAN: Integrating Text, Image, and Style [7.481665175881685]
GAN(Generative Adversarial Networks)に基づくマルチモーダル画像生成手法を提案する。この方法は、テキストエンコーダ、画像特徴抽出器、スタイル統合モジュールの設計を含む。実験結果から,提案手法は複数の公開データセットにまたがって,高い明瞭度と一貫性を有する画像を生成することがわかった。
論文参考訳（メタデータ） (2025-01-04T02:51:28Z)
HGAN: Hierarchical Graph Alignment Network for Image-Text Retrieval [13.061063817876336]
画像テキスト検索のための階層型グラフアライメントネットワーク(HGAN)を提案する。まず、包括的マルチモーダル特徴を捉えるために、画像の特徴グラフとテキストのモダリティをそれぞれ構築する。そして、MFAR(Multi-granularity Feature Aggregation and Rearrangement)モジュールを設計した多粒性共有空間を構築する。最後に、最終的な画像とテキストの特徴は、階層的アライメントを達成するために、3レベル類似関数によってさらに洗練される。
論文参考訳（メタデータ） (2022-12-16T05:08:52Z)
SceneComposer: Any-Level Semantic Image Synthesis [80.55876413285587]
任意の精度のセマンティックレイアウトから条件付き画像合成のための新しいフレームワークを提案する。このフレームワークは、形状情報のない最低レベルのテキスト・トゥ・イメージ(T2I)に自然に還元され、最高レベルのセグメンテーション・トゥ・イメージ(S2I)となる。本稿では,この新たなセットアップの課題に対処する,新しいテクニックをいくつか紹介する。
論文参考訳（メタデータ） (2022-11-21T18:59:05Z)
Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。 GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文参考訳（メタデータ） (2022-11-14T11:41:44Z)
More Control for Free! Image Synthesis with Semantic Diffusion Guidance [79.88929906247695]
制御可能な画像合成モデルは、サンプル画像からテキスト命令やガイダンスに基づいて多様な画像を作成することができる。セマンティックな拡散誘導のための新しい統合フレームワークを導入し、言語や画像の誘導、あるいはその両方を可能にした。 FFHQとLSUNのデータセットで実験を行い、微細なテキスト誘導画像合成結果を示す。
論文参考訳（メタデータ） (2021-12-10T18:55:50Z)
Cycle-Consistent Inverse GAN for Text-to-Image Synthesis [101.97397967958722]
本稿では,テキスト・ツー・イメージ・ジェネレーションとテキスト・ガイドによる画像操作を行うために,Cycle-Consistent Inverse GANの統一フレームワークを提案する。我々は、GANの反転モデルを学び、画像をGANの潜在空間に変換し、各画像の反転潜在符号を得る。テキスト誘導最適化モジュールでは、反転潜在符号を最適化することにより、所望のセマンティック属性を持つ画像を生成する。
論文参考訳（メタデータ） (2021-08-03T08:38:16Z)
Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文参考訳（メタデータ） (2021-04-18T16:56:07Z)
Learning Multimodal Affinities for Textual Editing in Images [18.7418059568887]
文書イメージにおけるテキストエンティティ間のマルチモーダルな親和性を学ぶための汎用的な非監視手法を考案する。次に、これらの学習親和性を使用して、画像内のテキストエンティティを異なるセマンティックグループに自動的にクラスタ化する。本手法は,幅広い文書にまたがる高度に多様な画像に対して動作可能であり,様々な編集操作に適用可能であることを示す。
論文参考訳（メタデータ） (2021-03-18T10:09:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。