論文の概要: Multi-Attributed and Structured Text-to-Face Synthesis
- arxiv url: http://arxiv.org/abs/2108.11100v1
- Date: Wed, 25 Aug 2021 07:52:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-26 13:04:58.627377
- Title: Multi-Attributed and Structured Text-to-Face Synthesis
- Title(参考訳): マルチ属性・構造化テキスト対面合成
- Authors: Rohan Wadhawan, Tanuj Drall, Shubham Singh, Shampa Chakraverty
- Abstract要約: Generative Adrial Networks (GAN) は、顔生成、写真編集、画像超解像などの多くの応用を通じて、画像合成に革命をもたらした。
本論文は、各テキスト記述における顔属性の増加が、より多様で現実的な顔を生成するのに役立つことを実証的に証明する。
- 参考スコア(独自算出の注目度): 1.3381749415517017
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative Adversarial Networks (GANs) have revolutionized image synthesis
through many applications like face generation, photograph editing, and image
super-resolution. Image synthesis using GANs has predominantly been uni-modal,
with few approaches that can synthesize images from text or other data modes.
Text-to-image synthesis, especially text-to-face synthesis, has promising use
cases of robust face-generation from eye witness accounts and augmentation of
the reading experience with visual cues. However, only a couple of datasets
provide consolidated face data and textual descriptions for text-to-face
synthesis. Moreover, these textual annotations are less extensive and
descriptive, which reduces the diversity of faces generated from it. This paper
empirically proves that increasing the number of facial attributes in each
textual description helps GANs generate more diverse and real-looking faces. To
prove this, we propose a new methodology that focuses on using structured
textual descriptions. We also consolidate a Multi-Attributed and Structured
Text-to-face (MAST) dataset consisting of high-quality images with structured
textual annotations and make it available to researchers to experiment and
build upon. Lastly, we report benchmark Frechet's Inception Distance (FID),
Facial Semantic Similarity (FSS), and Facial Semantic Distance (FSD) scores for
the MAST dataset.
- Abstract(参考訳): generative adversarial networks (gans)は、顔生成、写真編集、画像の超解像など、多くのアプリケーションを通じて画像合成に革命をもたらした。
GANを用いた画像合成は、主にユニモーダルであり、テキストや他のデータモードから画像を合成できるアプローチはほとんどない。
テキスト対画像合成、特にテキスト対面合成は、目の目撃者アカウントによる堅牢な顔生成と、視覚手がかりによる読書体験の強化という、有望なユースケースを持っている。
しかし、テキスト対面合成のための統合された顔データとテキスト記述を提供するデータセットは、わずか2つしかない。
さらに、これらのテキストアノテーションはより広範囲で記述的であり、そこから生成される顔の多様性を減少させる。
本稿では,各テキスト記述における顔属性数の増加が,ganがより多様でリアルな顔を生成するのに役立つことを実証する。
そこで本研究では,構造化テキスト記述を用いた新しい手法を提案する。
また、構造化されたテキストアノテーションによる高品質な画像からなるマルチAttributed and Structured Text-to-face (MAST)データセットを統合し、研究者が実験と構築を行うことを可能にする。
最後に,Frechet's Inception Distance (FID), Facial Semantic similarity (FSS), Facial Semantic Distance (FSD)のスコアをMASTデータセットのベンチマークで報告する。
関連論文リスト
- Vision-Language Matching for Text-to-Image Synthesis via Generative
Adversarial Networks [13.80433764370972]
テキスト・ツー・イメージ合成は、特定のテキスト記述からフォトリアリスティックでセマンティックな一貫性のある画像を生成することを目的としている。
本稿では,VLMGAN* というテキスト・画像合成のための新しい視覚言語マッチング手法を提案する。
提案手法は他のテキスト・画像合成法にも適用可能である。
論文 参考訳(メタデータ) (2022-08-20T03:34:04Z) - StyleT2I: Toward Compositional and High-Fidelity Text-to-Image Synthesis [52.341186561026724]
構成性の欠如は、堅牢性と公正性に深刻な影響を及ぼす可能性がある。
テキスト対画像合成の合成性を改善するための新しいフレームワークであるStyleT2Iを導入する。
その結果,StyleT2Iは入力テキストと合成画像との整合性という点で従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-03-29T17:59:50Z) - AnyFace: Free-style Text-to-Face Synthesis and Manipulation [41.61972206254537]
本稿では,AnyFaceという無料のテキスト・ツー・フェイス方式を提案する。
AnyFaceは、メタバース、ソーシャルメディア、化粧品、鑑識など、より広範なオープンワールドアプリケーションを可能にする。
論文 参考訳(メタデータ) (2022-03-29T08:27:38Z) - DAE-GAN: Dynamic Aspect-aware GAN for Text-to-Image Synthesis [55.788772366325105]
本研究では,文レベル,単語レベル,アスペクトレベルを含む複数の粒度からテキスト情報を包括的に表現する動的アスペクト・アワーン(DAE-GAN)を提案する。
人間の学習行動にインスパイアされた画像改善のためのADR(Aspect-aware Dynamic Re-drawer)を開発し,AGR(Attended Global Refinement)モジュールとALR(Aspect-aware Local Refinement)モジュールを交互に使用する。
論文 参考訳(メタデータ) (2021-08-27T07:20:34Z) - Cycle-Consistent Inverse GAN for Text-to-Image Synthesis [101.97397967958722]
本稿では,テキスト・ツー・イメージ・ジェネレーションとテキスト・ガイドによる画像操作を行うために,Cycle-Consistent Inverse GANの統一フレームワークを提案する。
我々は、GANの反転モデルを学び、画像をGANの潜在空間に変換し、各画像の反転潜在符号を得る。
テキスト誘導最適化モジュールでは、反転潜在符号を最適化することにより、所望のセマンティック属性を持つ画像を生成する。
論文 参考訳(メタデータ) (2021-08-03T08:38:16Z) - SynthTIGER: Synthetic Text Image GEneratoR Towards Better Text
Recognition Models [9.934446907923725]
そこで本研究では,テキスト画像合成に使用される技術を分析し,一つのアルゴリズムで有効なものを統合することによって,新しい合成テキスト画像生成装置であるSynthTIGERを提案する。
我々の実験では、SynthTIGERは合成データセットの組合せよりも優れたSTR性能を実現する。
論文 参考訳(メタデータ) (2021-07-20T08:03:45Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z) - Image-to-Image Translation with Text Guidance [139.41321867508722]
本研究の目的は,制御可能な因子,すなわち自然言語記述を生成的敵ネットワークを用いた画像から画像への変換に組み込むことである。
提案する4つのキーコンポーネントは,(1)非意味的単語をフィルタリングする部分音声タグの実装,(2) 異なるモダリティテキストと画像特徴を効果的に融合するアフィン結合モジュールの採用,(3) 識別器の差分能力と生成器の整形能力を高めるための改良された多段階アーキテクチャである。
論文 参考訳(メタデータ) (2020-02-12T21:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。