論文の概要: StyleT2F: Generating Human Faces from Textual Description Using
StyleGAN2
- arxiv url: http://arxiv.org/abs/2204.07924v1
- Date: Sun, 17 Apr 2022 04:51:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-19 14:03:10.707137
- Title: StyleT2F: Generating Human Faces from Textual Description Using
StyleGAN2
- Title(参考訳): stylet2f: stylegan2を用いたテキスト記述からの人顔生成
- Authors: Mohamed Shawky Sabae, Mohamed Ahmed Dardir, Remonda Talaat Eskarous,
Mohamed Ramzy Ebbed
- Abstract要約: StyleT2Fは、テキストを使用してStyleGAN2の出力を制御する方法である。
提案手法は,必要な特徴を正しくキャプチャし,入力テキストと出力画像との整合性を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: AI-driven image generation has improved significantly in recent years.
Generative adversarial networks (GANs), like StyleGAN, are able to generate
high-quality realistic data and have artistic control over the output, as well.
In this work, we present StyleT2F, a method of controlling the output of
StyleGAN2 using text, in order to be able to generate a detailed human face
from textual description. We utilize StyleGAN's latent space to manipulate
different facial features and conditionally sample the required latent code,
which embeds the facial features mentioned in the input text. Our method proves
to capture the required features correctly and shows consistency between the
input text and the output images. Moreover, our method guarantees
disentanglement on manipulating a wide range of facial features that
sufficiently describes a human face.
- Abstract(参考訳): aiによる画像生成は近年大幅に改善されている。
StyleGANと同様、GAN(Generative Adversarial Network)は高品質なリアルなデータを生成でき、出力を芸術的に制御できる。
本研究では,テキスト記述から詳細な人間の顔を生成するために,テキストを用いてStyleGAN2の出力を制御するStyleT2Fを提案する。
styleganの潜在空間を利用して、さまざまな顔特徴を操作し、入力テキストに言及されている顔特徴を埋め込んだ、必要な潜在コードを条件付きでサンプリングする。
提案手法は,必要な特徴を正しくキャプチャし,入力テキストと出力画像との整合性を示す。
さらに,人間の顔を十分に記述した幅広い顔の特徴を操作できることを保証した。
関連論文リスト
- FlashFace: Human Image Personalization with High-fidelity Identity Preservation [59.76645602354481]
FlashFaceを使うと、ユーザーは自分の写真を簡単にパーソナライズできる。
我々のアプローチは、高忠実度ID保存とより良い指示に従うことによって、既存の人間の写真カスタマイズ方法と区別できる。
論文 参考訳(メタデータ) (2024-03-25T17:59:57Z) - When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for
Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。
本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。
提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T09:05:14Z) - Towards High-Fidelity Text-Guided 3D Face Generation and Manipulation
Using only Images [105.92311979305065]
TG-3DFaceは、よりリアルで美的な3D顔を生成し、ラテント3Dよりも9%のマルチビュー一貫性(MVIC)を高めている。
TG-3DFaceによって生成された描画顔画像は、テキストから2Dの顔/画像生成モデルよりも高いFIDとCLIPスコアを達成する。
論文 参考訳(メタデータ) (2023-08-31T14:26:33Z) - StyleGANEX: StyleGAN-Based Manipulation Beyond Cropped Aligned Faces [103.54337984566877]
拡張畳み込みを用いて、モデルパラメータを変更することなく、StyleGANの浅い層の受容場を再スケールする。
これにより、浅い層における固定サイズの小さなフィーチャを、可変解像度に対応できるより大きなものへと拡張することができる。
本手法は,多様な顔操作タスクにおいて,様々な解像度の顔入力を用いて検証する。
論文 参考訳(メタデータ) (2023-03-10T18:59:33Z) - HumanDiffusion: a Coarse-to-Fine Alignment Diffusion Framework for
Controllable Text-Driven Person Image Generation [73.3790833537313]
制御可能な人物画像生成は、デジタルヒューマンインタラクションや仮想トライオンといった幅広い応用を促進する。
テキスト駆動型人物画像生成のための粗大なアライメント拡散フレームワークHumanDiffusionを提案する。
論文 参考訳(メタデータ) (2022-11-11T14:30:34Z) - Text-to-Face Generation with StyleGAN2 [0.0]
入力記述に整合した顔画像を生成するための新しい枠組みを提案する。
本フレームワークでは,高分解能顔生成器であるStyleGAN2を用いて,T2Fでの利用の可能性を探る。
生成された画像は、地上の真理画像と57%の類似性を示し、顔のセマンティック距離は0.92であり、最先端技術よりも優れていた。
論文 参考訳(メタデータ) (2022-05-25T06:02:01Z) - AnyFace: Free-style Text-to-Face Synthesis and Manipulation [41.61972206254537]
本稿では,AnyFaceという無料のテキスト・ツー・フェイス方式を提案する。
AnyFaceは、メタバース、ソーシャルメディア、化粧品、鑑識など、より広範なオープンワールドアプリケーションを可能にする。
論文 参考訳(メタデータ) (2022-03-29T08:27:38Z) - Semantic Text-to-Face GAN -ST^2FG [0.7919810878571298]
セマンティックテキスト記述から顔画像を生成する新しい手法を提案する。
セキュリティと犯罪の特定のためには、スケッチアーティストのように機能するGANベースのシステムを提供する能力は、信じられないほど有用だろう。
論文 参考訳(メタデータ) (2021-07-22T15:42:25Z) - StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery [71.1862388442953]
StyleGAN画像操作のためのテキストベースのインターフェースを開発しています。
まず,ユーザが提案するテキストプロンプトに応答して,CLIPに基づく損失を利用して入力潜時ベクトルを変更する最適化手法を提案する。
次に、与えられた入力画像に対してテキスト誘導の潜時操作ステップを推論し、より高速で安定したテキストベースの操作を可能にする潜時マッパーについて述べる。
論文 参考訳(メタデータ) (2021-03-31T17:51:25Z) - Faces \`a la Carte: Text-to-Face Generation via Attribute
Disentanglement [9.10088750358281]
Text-to-Face (TTF) は多様なコンピュータビジョンアプリケーションにおいて大きな可能性を秘めている課題である。
本研究では,高解像度(1024×1024)で画像を生成するテキスト・ツー・フェイスモデルを提案する。
実験結果から,TTF-HDは最先端の性能を有する高品質な顔を生成することが示された。
論文 参考訳(メタデータ) (2020-06-13T10:24:31Z) - StyleGAN2 Distillation for Feed-forward Image Manipulation [5.5080625617632]
StyleGAN2は、現実的な画像を生成する最先端のネットワークである。
本稿では,StyleGAN2の特定の画像操作を,ペア方式で訓練した画像間ネットワークに蒸留する方法を提案する。
論文 参考訳(メタデータ) (2020-03-07T14:02:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。