論文の概要: Faces \`a la Carte: Text-to-Face Generation via Attribute
Disentanglement
- arxiv url: http://arxiv.org/abs/2006.07606v2
- Date: Fri, 18 Sep 2020 07:21:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 21:08:21.684912
- Title: Faces \`a la Carte: Text-to-Face Generation via Attribute
Disentanglement
- Title(参考訳): Faces \`a la Carte: Attribute Disentanglementによるテキスト対顔生成
- Authors: Tianren Wang, Teng Zhang, Brian Lovell
- Abstract要約: Text-to-Face (TTF) は多様なコンピュータビジョンアプリケーションにおいて大きな可能性を秘めている課題である。
本研究では,高解像度(1024×1024)で画像を生成するテキスト・ツー・フェイスモデルを提案する。
実験結果から,TTF-HDは最先端の性能を有する高品質な顔を生成することが示された。
- 参考スコア(独自算出の注目度): 9.10088750358281
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-Face (TTF) synthesis is a challenging task with great potential for
diverse computer vision applications. Compared to Text-to-Image (TTI) synthesis
tasks, the textual description of faces can be much more complicated and
detailed due to the variety of facial attributes and the parsing of high
dimensional abstract natural language. In this paper, we propose a Text-to-Face
model that not only produces images in high resolution (1024x1024) with
text-to-image consistency, but also outputs multiple diverse faces to cover a
wide range of unspecified facial features in a natural way. By fine-tuning the
multi-label classifier and image encoder, our model obtains the vectors and
image embeddings which are used to transform the input noise vector sampled
from the normal distribution. Afterwards, the transformed noise vector is fed
into a pre-trained high-resolution image generator to produce a set of faces
with the desired facial attributes. We refer to our model as TTF-HD.
Experimental results show that TTF-HD generates high-quality faces with
state-of-the-art performance.
- Abstract(参考訳): text-to-face (ttf) 合成は様々なコンピュータビジョンアプリケーションにとって大きな可能性を秘めた課題である。
text-to-image(tti)合成タスクと比較して、顔の属性の多様性と高次元抽象自然言語のパースにより、顔のテキスト記述はずっと複雑で詳細になる。
本稿では,テキストと画像の一貫性を持った高解像度(1024x1024)画像を生成するだけでなく,多彩な表情を出力し,多様な不特定な顔特徴を自然にカバーするテキスト対面モデルを提案する。
マルチラベル分類器と画像エンコーダを微調整することにより,正規分布からサンプリングした入力雑音ベクトルを変換するためのベクトルおよび画像埋め込みを得る。
その後、変換されたノイズベクトルを事前訓練された高解像度画像生成装置に入力し、所望の顔特性を有する一連の顔を生成する。
我々はこのモデルをTF-HDと呼ぶ。
実験結果から,TTF-HDは最先端の性能を有する高品質な顔を生成することがわかった。
関連論文リスト
- OSDFace: One-Step Diffusion Model for Face Restoration [72.5045389847792]
拡散モデルは、顔の修復において顕著な性能を示した。
顔復元のための新しいワンステップ拡散モデルOSDFaceを提案する。
その結果,OSDFaceは現状のSOTA(State-of-the-art)手法を視覚的品質と定量的指標の両方で上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-26T07:07:48Z) - Arc2Face: A Foundation Model for ID-Consistent Human Faces [95.00331107591859]
Arc2Faceは、ID条件のフェイスファンデーションモデルである。
既存のモデルと無矛盾の顔類似度で、多様なフォトリアリスティック画像を生成することができる。
論文 参考訳(メタデータ) (2024-03-18T10:32:51Z) - GaFET: Learning Geometry-aware Facial Expression Translation from
In-The-Wild Images [55.431697263581626]
本稿では,パラメトリックな3次元顔表現をベースとした新しい顔表情翻訳フレームワークを提案する。
我々は、最先端の手法と比較して、高品質で正確な表情伝達結果を実現し、様々なポーズや複雑なテクスチャの適用性を実証する。
論文 参考訳(メタデータ) (2023-08-07T09:03:35Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - HumanDiffusion: a Coarse-to-Fine Alignment Diffusion Framework for
Controllable Text-Driven Person Image Generation [73.3790833537313]
制御可能な人物画像生成は、デジタルヒューマンインタラクションや仮想トライオンといった幅広い応用を促進する。
テキスト駆動型人物画像生成のための粗大なアライメント拡散フレームワークHumanDiffusionを提案する。
論文 参考訳(メタデータ) (2022-11-11T14:30:34Z) - StyleT2F: Generating Human Faces from Textual Description Using
StyleGAN2 [0.0]
StyleT2Fは、テキストを使用してStyleGAN2の出力を制御する方法である。
提案手法は,必要な特徴を正しくキャプチャし,入力テキストと出力画像との整合性を示す。
論文 参考訳(メタデータ) (2022-04-17T04:51:30Z) - AnyFace: Free-style Text-to-Face Synthesis and Manipulation [41.61972206254537]
本稿では,AnyFaceという無料のテキスト・ツー・フェイス方式を提案する。
AnyFaceは、メタバース、ソーシャルメディア、化粧品、鑑識など、より広範なオープンワールドアプリケーションを可能にする。
論文 参考訳(メタデータ) (2022-03-29T08:27:38Z) - Learning Continuous Face Representation with Explicit Functions [20.5159277443333]
数学用語の有限和の形で人間の顔表現のための明示的モデル(EmFace)を提案する。
EmFaceは、顔画像の復元、デノイング、変換など、複数の顔画像処理タスクで合理的なパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-10-25T03:49:20Z) - Multi-Attributed and Structured Text-to-Face Synthesis [1.3381749415517017]
Generative Adrial Networks (GAN) は、顔生成、写真編集、画像超解像などの多くの応用を通じて、画像合成に革命をもたらした。
本論文は、各テキスト記述における顔属性の増加が、より多様で現実的な顔を生成するのに役立つことを実証的に証明する。
論文 参考訳(メタデータ) (2021-08-25T07:52:21Z) - Semantic Text-to-Face GAN -ST^2FG [0.7919810878571298]
セマンティックテキスト記述から顔画像を生成する新しい手法を提案する。
セキュリティと犯罪の特定のためには、スケッチアーティストのように機能するGANベースのシステムを提供する能力は、信じられないほど有用だろう。
論文 参考訳(メタデータ) (2021-07-22T15:42:25Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。