論文の概要: Text-to-Face Generation with StyleGAN2
- arxiv url: http://arxiv.org/abs/2205.12512v1
- Date: Wed, 25 May 2022 06:02:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-26 14:32:29.985126
- Title: Text-to-Face Generation with StyleGAN2
- Title(参考訳): stylegan2によるテキスト対面生成
- Authors: D. M. A. Ayanthi and Sarasi Munasinghe
- Abstract要約: 入力記述に整合した顔画像を生成するための新しい枠組みを提案する。
本フレームワークでは,高分解能顔生成器であるStyleGAN2を用いて,T2Fでの利用の可能性を探る。
生成された画像は、地上の真理画像と57%の類似性を示し、顔のセマンティック距離は0.92であり、最先端技術よりも優れていた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Synthesizing images from text descriptions has become an active research area
with the advent of Generative Adversarial Networks. The main goal here is to
generate photo-realistic images that are aligned with the input descriptions.
Text-to-Face generation (T2F) is a sub-domain of Text-to-Image generation (T2I)
that is more challenging due to the complexity and variation of facial
attributes. It has a number of applications mainly in the domain of public
safety. Even though several models are available for T2F, there is still the
need to improve the image quality and the semantic alignment. In this research,
we propose a novel framework, to generate facial images that are well-aligned
with the input descriptions. Our framework utilizes the high-resolution face
generator, StyleGAN2, and explores the possibility of using it in T2F. Here, we
embed text in the input latent space of StyleGAN2 using BERT embeddings and
oversee the generation of facial images using text descriptions. We trained our
framework on attribute-based descriptions to generate images of 1024x1024 in
resolution. The images generated exhibit a 57% similarity to the ground truth
images, with a face semantic distance of 0.92, outperforming
state-of-the-artwork. The generated images have a FID score of 118.097 and the
experimental results show that our model generates promising images.
- Abstract(参考訳): テキスト記述からの画像の合成は、ジェネレーティブ・アドバイサル・ネットワークの出現とともに活発な研究領域となっている。
ここでの主な目標は、入力記述に一致した写真リアリスティックな画像を生成することだ。
text-to-face generation (t2f) はtext-to-image generation (t2i) のサブドメインであり、顔の属性の複雑さとバリエーションのためより難しい。
主に公共安全分野における多くの応用がある。
いくつかのモデルがT2Fで利用可能だが、画像の品質とセマンティックアライメントを改善する必要がある。
本研究では,入力記述によく適合した顔画像を生成するための新しい枠組みを提案する。
本フレームワークでは,高分解能顔生成器であるStyleGAN2を用いて,T2Fでの利用の可能性を探る。
ここでは,bert埋め込みを用いたstylegan2の入力潜在空間にテキストを埋め込み,テキスト記述を用いた顔画像生成を監督する。
属性に基づく記述に基づいて,1024×1024の解像度画像を生成するフレームワークを訓練した。
生成された画像は、地上の真理画像と57%の類似性を示し、顔のセマンティック距離は0.92であり、最先端技術よりも優れていた。
生成した画像のFIDスコアは118.097であり,実験結果から,本モデルが有望な画像を生成することを示す。
関連論文リスト
- Visual Text Generation in the Wild [67.37458807253064]
野生で高品質なテキスト画像を生成する視覚テキスト生成装置(SceneVTG)を提案する。
提案したSceneVTGは、従来のレンダリングに基づく手法と最近の拡散に基づく手法を、忠実さと理性の観点から大きく上回っている。
生成された画像は、テキスト検出とテキスト認識を含むタスクに優れたユーティリティを提供する。
論文 参考訳(メタデータ) (2024-07-19T09:08:20Z) - Paragraph-to-Image Generation with Information-Enriched Diffusion Model [67.9265336953134]
パラディフュージョン(英: ParaDiffusion)は、パラディフュージョンモデルである。
これは、大きな言語モデルの広範囲な意味理解能力を画像生成のタスクに移すことを念頭に置いている。
コードとデータセットは、長文アライメントに関するコミュニティの研究を促進するためにリリースされます。
論文 参考訳(メタデータ) (2023-11-24T05:17:01Z) - Learning to Generate Semantic Layouts for Higher Text-Image
Correspondence in Text-to-Image Synthesis [37.32270579534541]
利用可能なセマンティックレイアウトを活用することで,テキスト画像の対応性を向上させる新しい手法を提案する。
提案手法は,Multi-Modal CelebA-HQおよびCityscapesデータセットにおける既存のテキスト・画像生成手法と比較して,高いテキスト・画像対応を実現する。
論文 参考訳(メタデータ) (2023-08-16T05:59:33Z) - LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image
Generation [121.45667242282721]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。
提案手法は,フォトリアリスティックなレイアウトと画像生成の観点から,最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2023-08-09T17:45:04Z) - GlyphDiffusion: Text Generation as Image Generation [100.98428068214736]
テキスト誘導画像生成によるテキスト生成のための新しい拡散手法であるGlyphDiffusionを提案する。
私たちのキーとなるアイデアは、ターゲットのテキストを視覚言語コンテンツを含むグリフイメージとしてレンダリングすることです。
また,本モデルでは,近年の拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-04-25T02:14:44Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。
テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (2022-05-23T17:42:53Z) - StyleT2F: Generating Human Faces from Textual Description Using
StyleGAN2 [0.0]
StyleT2Fは、テキストを使用してStyleGAN2の出力を制御する方法である。
提案手法は,必要な特徴を正しくキャプチャし,入力テキストと出力画像との整合性を示す。
論文 参考訳(メタデータ) (2022-04-17T04:51:30Z) - OptGAN: Optimizing and Interpreting the Latent Space of the Conditional
Text-to-Image GANs [8.26410341981427]
生成したサンプルが信頼でき、現実的、あるいは自然であることを保証する方法について研究する。
本稿では,条件付きテキスト・ツー・イメージGANアーキテクチャの潜在空間における意味論的理解可能な方向を識別するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-25T20:00:33Z) - Semantic Text-to-Face GAN -ST^2FG [0.7919810878571298]
セマンティックテキスト記述から顔画像を生成する新しい手法を提案する。
セキュリティと犯罪の特定のためには、スケッチアーティストのように機能するGANベースのシステムを提供する能力は、信じられないほど有用だろう。
論文 参考訳(メタデータ) (2021-07-22T15:42:25Z) - Text to Image Generation with Semantic-Spatial Aware GAN [41.73685713621705]
テキストから画像生成(T2I)モデルは、テキスト記述と意味的に一致するフォトリアリズム画像を生成することを目的としている。
本稿では,テキストエンコーダがより良いテキスト情報を活用できるように,エンドツーエンドで訓練された新しいフレームワークSemantic-Spatial Aware GANを提案する。
論文 参考訳(メタデータ) (2021-04-01T15:48:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。