論文の概要: AnyFace: Free-style Text-to-Face Synthesis and Manipulation
- arxiv url: http://arxiv.org/abs/2203.15334v1
- Date: Tue, 29 Mar 2022 08:27:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 02:59:51.771964
- Title: AnyFace: Free-style Text-to-Face Synthesis and Manipulation
- Title(参考訳): anyface: フリースタイルテキスト対面合成と操作
- Authors: Jianxin Sun, Qiyao Deng, Qi Li, Muyi Sun, Min Ren, Zhenan Sun
- Abstract要約: 本稿では,AnyFaceという無料のテキスト・ツー・フェイス方式を提案する。
AnyFaceは、メタバース、ソーシャルメディア、化粧品、鑑識など、より広範なオープンワールドアプリケーションを可能にする。
- 参考スコア(独自算出の注目度): 41.61972206254537
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing text-to-image synthesis methods generally are only applicable to
words in the training dataset. However, human faces are so variable to be
described with limited words. So this paper proposes the first free-style
text-to-face method namely AnyFace enabling much wider open world applications
such as metaverse, social media, cosmetics, forensics, etc. AnyFace has a novel
two-stream framework for face image synthesis and manipulation given arbitrary
descriptions of the human face. Specifically, one stream performs text-to-face
generation and the other conducts face image reconstruction. Facial text and
image features are extracted using the CLIP (Contrastive Language-Image
Pre-training) encoders. And a collaborative Cross Modal Distillation (CMD)
module is designed to align the linguistic and visual features across these two
streams. Furthermore, a Diverse Triplet Loss (DT loss) is developed to model
fine-grained features and improve facial diversity. Extensive experiments on
Multi-modal CelebA-HQ and CelebAText-HQ demonstrate significant advantages of
AnyFace over state-of-the-art methods. AnyFace can achieve high-quality,
high-resolution, and high-diversity face synthesis and manipulation results
without any constraints on the number and content of input captions.
- Abstract(参考訳): 既存のテキスト・画像合成法は訓練データセットの単語にのみ適用できる。
しかし、人間の顔は限定的な言葉で説明できるほど多様である。
そこで本稿では, メタバース, ソーシャルメディア, 化粧品, 法医学など, より広いオープンワールド応用を可能にする最初のフリースタイルテキスト対面手法であるanyfaceを提案する。
AnyFaceには、人間の顔の任意の記述を与えられた顔画像合成と操作のための新しい2ストリームフレームワークがある。
具体的には、あるストリームがテキスト対面生成を行い、もう一方が顔画像再構成を行う。
CLIP(Contrastive Language- Image Pre-training)エンコーダを用いて、顔文字と画像の特徴を抽出する。
また、CMD(Cross Modal Distillation)モジュールは、これらの2つのストリームの言語的特徴と視覚的特徴を一致させるように設計されている。
さらに,細粒度特徴をモデル化し,顔の多様性を改善するために,多種多様なトリプルトロス(dt損失)が開発されている。
マルチモーダルCelebA-HQとCelebAText-HQの大規模な実験は、AnyFaceの最先端手法に対する大きな利点を示している。
anyfaceは、入力キャプションの数と内容に制約なく、高品質、高解像度、高多様性の顔合成と操作結果を達成することができる。
関連論文リスト
- FlashFace: Human Image Personalization with High-fidelity Identity Preservation [59.76645602354481]
FlashFaceを使うと、ユーザーは自分の写真を簡単にパーソナライズできる。
我々のアプローチは、高忠実度ID保存とより良い指示に従うことによって、既存の人間の写真カスタマイズ方法と区別できる。
論文 参考訳(メタデータ) (2024-03-25T17:59:57Z) - Towards High-Fidelity Text-Guided 3D Face Generation and Manipulation
Using only Images [105.92311979305065]
TG-3DFaceは、よりリアルで美的な3D顔を生成し、ラテント3Dよりも9%のマルチビュー一貫性(MVIC)を高めている。
TG-3DFaceによって生成された描画顔画像は、テキストから2Dの顔/画像生成モデルよりも高いFIDとCLIPスコアを達成する。
論文 参考訳(メタデータ) (2023-08-31T14:26:33Z) - GaFET: Learning Geometry-aware Facial Expression Translation from
In-The-Wild Images [55.431697263581626]
本稿では,パラメトリックな3次元顔表現をベースとした新しい顔表情翻訳フレームワークを提案する。
我々は、最先端の手法と比較して、高品質で正確な表情伝達結果を実現し、様々なポーズや複雑なテクスチャの適用性を実証する。
論文 参考訳(メタデータ) (2023-08-07T09:03:35Z) - HumanDiffusion: a Coarse-to-Fine Alignment Diffusion Framework for
Controllable Text-Driven Person Image Generation [73.3790833537313]
制御可能な人物画像生成は、デジタルヒューマンインタラクションや仮想トライオンといった幅広い応用を促進する。
テキスト駆動型人物画像生成のための粗大なアライメント拡散フレームワークHumanDiffusionを提案する。
論文 参考訳(メタデータ) (2022-11-11T14:30:34Z) - Multi-Attributed and Structured Text-to-Face Synthesis [1.3381749415517017]
Generative Adrial Networks (GAN) は、顔生成、写真編集、画像超解像などの多くの応用を通じて、画像合成に革命をもたらした。
本論文は、各テキスト記述における顔属性の増加が、より多様で現実的な顔を生成するのに役立つことを実証的に証明する。
論文 参考訳(メタデータ) (2021-08-25T07:52:21Z) - Semantic Text-to-Face GAN -ST^2FG [0.7919810878571298]
セマンティックテキスト記述から顔画像を生成する新しい手法を提案する。
セキュリティと犯罪の特定のためには、スケッチアーティストのように機能するGANベースのシステムを提供する能力は、信じられないほど有用だろう。
論文 参考訳(メタデータ) (2021-07-22T15:42:25Z) - Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。
本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文 参考訳(メタデータ) (2021-04-18T16:56:07Z) - Faces \`a la Carte: Text-to-Face Generation via Attribute
Disentanglement [9.10088750358281]
Text-to-Face (TTF) は多様なコンピュータビジョンアプリケーションにおいて大きな可能性を秘めている課題である。
本研究では,高解像度(1024×1024)で画像を生成するテキスト・ツー・フェイスモデルを提案する。
実験結果から,TTF-HDは最先端の性能を有する高品質な顔を生成することが示された。
論文 参考訳(メタデータ) (2020-06-13T10:24:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。