論文の概要: Semantic Text-to-Face GAN -ST^2FG
- arxiv url: http://arxiv.org/abs/2107.10756v4
- Date: Wed, 13 Dec 2023 08:44:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 21:26:35.051120
- Title: Semantic Text-to-Face GAN -ST^2FG
- Title(参考訳): セマンティックテキスト対顔GAN-ST^2FG
- Authors: Manan Oza, Sukalpa Chanda and David Doermann
- Abstract要約: セマンティックテキスト記述から顔画像を生成する新しい手法を提案する。
セキュリティと犯罪の特定のためには、スケッチアーティストのように機能するGANベースのシステムを提供する能力は、信じられないほど有用だろう。
- 参考スコア(独自算出の注目度): 0.7919810878571298
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Faces generated using generative adversarial networks (GANs) have reached
unprecedented realism. These faces, also known as "Deep Fakes", appear as
realistic photographs with very little pixel-level distortions. While some work
has enabled the training of models that lead to the generation of specific
properties of the subject, generating a facial image based on a natural
language description has not been fully explored. For security and criminal
identification, the ability to provide a GAN-based system that works like a
sketch artist would be incredibly useful. In this paper, we present a novel
approach to generate facial images from semantic text descriptions. The learned
model is provided with a text description and an outline of the type of face,
which the model uses to sketch the features. Our models are trained using an
Affine Combination Module (ACM) mechanism to combine the text embedding from
BERT and the GAN latent space using a self-attention matrix. This avoids the
loss of features due to inadequate "attention", which may happen if text
embedding and latent vector are simply concatenated. Our approach is capable of
generating images that are very accurately aligned to the exhaustive textual
descriptions of faces with many fine detail features of the face and helps in
generating better images. The proposed method is also capable of making
incremental changes to a previously generated image if it is provided with
additional textual descriptions or sentences.
- Abstract(参考訳): generative adversarial networks (gans) を用いて生成された顔は、前例のない現実主義に到達している。
ディープフェイクス」とも呼ばれるこれらの顔は、ピクセルレベルの歪みがほとんどない現実的な写真として現れる。
対象の特定の特性を発生させるモデルのトレーニングを可能にした研究もあるが、自然言語記述に基づく顔画像の生成は十分に検討されていない。
セキュリティと犯罪の特定のためには、スケッチアーティストのように機能するganベースのシステムを提供する能力は非常に有用です。
本稿では,意味的テキスト記述から顔画像を生成する新しい手法を提案する。
学習されたモデルは、テキスト記述と、モデルが特徴のスケッチに使用する顔のタイプの概要を提供する。
我々のモデルはAffine Combination Module (ACM) 機構を用いて訓練され、BERT と GAN の潜在空間からの埋め込みを自己認識行列を用いて組み合わせる。
これは、テキストの埋め込みと潜伏ベクトルが単純に結合された場合に起こりうる、不適切な"注意"による機能の喪失を回避する。
提案手法では,顔の詳細な特徴を多数備えた顔のテキスト記述に極めて正確に一致した画像を生成し,良好な画像を生成することができる。
提案手法は、追加のテキスト記述や文が提供される場合、予め生成した画像に漸進的な変更を加えることもできる。
関連論文リスト
- Towards Localized Fine-Grained Control for Facial Expression Generation [54.82883891478555]
人間、特にその顔は、豊かな表現と意図を伝える能力のために、コンテンツ生成の中心である。
現在の生成モデルは、主に平らな中立表現と文字なしの笑顔を認証なしで生成する。
顔生成における表情制御におけるAU(アクションユニット)の利用を提案する。
論文 参考訳(メタデータ) (2024-07-25T18:29:48Z) - Improving face generation quality and prompt following with synthetic captions [57.47448046728439]
画像から正確な外観記述を生成するために,トレーニング不要のパイプラインを導入する。
次に、これらの合成キャプションを使用して、テキストから画像への拡散モデルを微調整する。
提案手法は,高品質で現実的な人間の顔を生成するモデルの能力を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-05-17T15:50:53Z) - TextGaze: Gaze-Controllable Face Generation with Natural Language [20.957791298860712]
我々は新しい視線制御可能な顔生成タスクを提案する。
本稿では,人間の視線と頭の動きを記述したテキスト記述を入力し,対応する顔画像を生成する。
FFHQデータセットを用いた実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-04-26T15:42:24Z) - FlashFace: Human Image Personalization with High-fidelity Identity Preservation [59.76645602354481]
FlashFaceを使うと、ユーザーは自分の写真を簡単にパーソナライズできる。
我々のアプローチは、高忠実度ID保存とより良い指示に従うことによって、既存の人間の写真カスタマイズ方法と区別できる。
論文 参考訳(メタデータ) (2024-03-25T17:59:57Z) - When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for
Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。
本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。
提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T09:05:14Z) - GaFET: Learning Geometry-aware Facial Expression Translation from
In-The-Wild Images [55.431697263581626]
本稿では,パラメトリックな3次元顔表現をベースとした新しい顔表情翻訳フレームワークを提案する。
我々は、最先端の手法と比較して、高品質で正確な表情伝達結果を実現し、様々なポーズや複雑なテクスチャの適用性を実証する。
論文 参考訳(メタデータ) (2023-08-07T09:03:35Z) - Face Generation from Textual Features using Conditionally Trained Inputs
to Generative Adversarial Networks [0.0]
我々は、自然言語処理モデルにおける状態のパワーを用いて、顔の記述を学習可能な潜在ベクトルに変換する。
同じアプローチは、きめ細かいテキストの特徴に基づいて任意の画像を生成するように調整できる。
論文 参考訳(メタデータ) (2023-01-22T13:27:12Z) - AnyFace: Free-style Text-to-Face Synthesis and Manipulation [41.61972206254537]
本稿では,AnyFaceという無料のテキスト・ツー・フェイス方式を提案する。
AnyFaceは、メタバース、ソーシャルメディア、化粧品、鑑識など、より広範なオープンワールドアプリケーションを可能にする。
論文 参考訳(メタデータ) (2022-03-29T08:27:38Z) - Learning to Aggregate and Personalize 3D Face from In-the-Wild Photo
Collection [65.92058628082322]
非パラメトリックフェースモデリングは形状仮定なしで画像からのみ3次元フェースを再構成することを目的としている。
本稿では,教師なしのロバストな3次元顔モデリングのための学習・アグリゲート・パーソナライズ・フレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-15T03:10:17Z) - S2FGAN: Semantically Aware Interactive Sketch-to-Face Translation [11.724779328025589]
本稿では,S2FGANと呼ばれるスケッチ・ツー・イメージ生成フレームワークを提案する。
我々は2つの潜在空間を用いて顔の外観を制御し、生成した顔の所望の属性を調整する。
提案手法は,属性強度の制御性を高めることで,属性操作における最先端の手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2020-11-30T13:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。