論文の概要: TextGaze: Gaze-Controllable Face Generation with Natural Language
- arxiv url: http://arxiv.org/abs/2404.17486v3
- Date: Sat, 28 Sep 2024 08:46:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 21:59:40.579960
- Title: TextGaze: Gaze-Controllable Face Generation with Natural Language
- Title(参考訳): TextGaze: 自然言語による視線制御可能な顔生成
- Authors: Hengfei Wang, Zhongqun Zhang, Yihua Cheng, Hyung Jin Chang,
- Abstract要約: 我々は新しい視線制御可能な顔生成タスクを提案する。
本稿では,人間の視線と頭の動きを記述したテキスト記述を入力し,対応する顔画像を生成する。
FFHQデータセットを用いた実験により,本手法の有効性が示された。
- 参考スコア(独自算出の注目度): 20.957791298860712
- License:
- Abstract: Generating face image with specific gaze information has attracted considerable attention. Existing approaches typically input gaze values directly for face generation, which is unnatural and requires annotated gaze datasets for training, thereby limiting its application. In this paper, we present a novel gaze-controllable face generation task. Our approach inputs textual descriptions that describe human gaze and head behavior and generates corresponding face images. Our work first introduces a text-of-gaze dataset containing over 90k text descriptions spanning a dense distribution of gaze and head poses. We further propose a gaze-controllable text-to-face method. Our method contains a sketch-conditioned face diffusion module and a model-based sketch diffusion module. We define a face sketch based on facial landmarks and eye segmentation map. The face diffusion module generates face images from the face sketch, and the sketch diffusion module employs a 3D face model to generate face sketch from text description. Experiments on the FFHQ dataset show the effectiveness of our method. We will release our dataset and code for future research.
- Abstract(参考訳): 特定の視線情報による顔画像の生成は注目されている。
既存のアプローチは、通常、顔生成のために直接視線値を入力し、これは非自然であり、トレーニングのために注釈付き視線データセットを必要とするため、その応用は制限される。
本稿では,新しい視線制御可能な顔生成タスクを提案する。
本稿では,人間の視線と頭の動きを記述したテキスト記述を入力し,対応する顔画像を生成する。
我々の研究はまず、視線と頭ポーズの密集した分布にまたがる90万以上のテキスト記述を含む、迷路のテキストデータセットを紹介した。
さらに,視線制御可能なテキスト・ツー・フェイス方式を提案する。
本手法は,スケッチ条件付き顔拡散モジュールとモデルに基づくスケッチ拡散モジュールを含む。
顔のランドマークとアイセグメンテーションマップに基づいて顔スケッチを定義する。
顔拡散モジュールは、顔スケッチから顔画像を生成し、スケッチ拡散モジュールは、3D顔モデルを用いて、テキスト記述から顔スケッチを生成する。
FFHQデータセットを用いた実験により,本手法の有効性が示された。
今後の研究のために、データセットとコードを公開します。
関連論文リスト
- Knowledge-Enhanced Facial Expression Recognition with Emotional-to-Neutral Transformation [66.53435569574135]
既存の表情認識法は、通常、個別のラベルを使って訓練済みのビジュアルエンコーダを微調整する。
視覚言語モデルによって生成されるテキスト埋め込みの豊富な知識は、識別的表情表現を学ぶための有望な代替手段である。
感情-中性変換を用いた知識強化FER法を提案する。
論文 参考訳(メタデータ) (2024-09-13T07:28:57Z) - Towards Localized Fine-Grained Control for Facial Expression Generation [54.82883891478555]
人間、特にその顔は、豊かな表現と意図を伝える能力のために、コンテンツ生成の中心である。
現在の生成モデルは、主に平らな中立表現と文字なしの笑顔を認証なしで生成する。
顔生成における表情制御におけるAU(アクションユニット)の利用を提案する。
論文 参考訳(メタデータ) (2024-07-25T18:29:48Z) - FlashFace: Human Image Personalization with High-fidelity Identity Preservation [59.76645602354481]
FlashFaceを使うと、ユーザーは自分の写真を簡単にパーソナライズできる。
我々のアプローチは、高忠実度ID保存とより良い指示に従うことによって、既存の人間の写真カスタマイズ方法と区別できる。
論文 参考訳(メタデータ) (2024-03-25T17:59:57Z) - Face0: Instantaneously Conditioning a Text-to-Image Model on a Face [3.5150821092068383]
顔にテキスト・ツー・イメージ生成モデルを瞬時に条件付ける新しい方法であるFace0を提案する。
アノテーション付き画像のデータセットを包含した顔の埋め込みで拡張し、拡張データセット上で画像生成モデルを訓練する。
提案手法は, 極めてシンプルで, 極めて高速であり, 基礎となるモデルに新たな機能を持たせる。
論文 参考訳(メタデータ) (2023-06-11T09:52:03Z) - AnyFace: Free-style Text-to-Face Synthesis and Manipulation [41.61972206254537]
本稿では,AnyFaceという無料のテキスト・ツー・フェイス方式を提案する。
AnyFaceは、メタバース、ソーシャルメディア、化粧品、鑑識など、より広範なオープンワールドアプリケーションを可能にする。
論文 参考訳(メタデータ) (2022-03-29T08:27:38Z) - Semantic Text-to-Face GAN -ST^2FG [0.7919810878571298]
セマンティックテキスト記述から顔画像を生成する新しい手法を提案する。
セキュリティと犯罪の特定のためには、スケッチアーティストのように機能するGANベースのシステムを提供する能力は、信じられないほど有用だろう。
論文 参考訳(メタデータ) (2021-07-22T15:42:25Z) - VariTex: Variational Neural Face Textures [0.0]
VariTexは、ニューラルフェイステクスチャの変動潜在特徴空間を学習する手法である。
頭部の完全な画像を生成するために,毛髪などの正確な詳細情報を生成する付加デコーダを提案する。
その結果、顔のポーズ、顔の形状、表情の微粒度を制御できる新しいアイデンティティの幾何学的に一貫性のある画像を生成することができる。
論文 参考訳(メタデータ) (2021-04-13T07:47:53Z) - FaceDet3D: Facial Expressions with 3D Geometric Detail Prediction [62.5557724039217]
表情は3d顔形状の様々な高レベルな詳細を誘導する。
人間の顔のモルフォラブルモデル(3DMM)は、PCAベースの表現でそのような細かい詳細をキャプチャできません。
faceet3dは,1つの画像から,任意の対象表現と一致する幾何学的顔詳細を生成する,初歩的な手法である。
論文 参考訳(メタデータ) (2020-12-14T23:07:38Z) - Face Forgery Detection by 3D Decomposition [72.22610063489248]
顔画像は、基礎となる3次元幾何学と照明環境の介入の産物とみなす。
顔画像を3次元形状、共通テクスチャ、アイデンティティテクスチャ、周囲光、そして直接光に切り離すことで、悪魔は直接光とアイデンティティテクスチャの中に横たわる。
直接光と識別テクスチャを組み合わせた顔のディテールを,微妙な偽造パターンを検出する手がかりとして活用することを提案する。
論文 参考訳(メタデータ) (2020-11-19T09:25:44Z) - FaR-GAN for One-Shot Face Reenactment [20.894596219099164]
本稿では,任意の音源の顔画像とターゲット表現のみを入力として用いた一発顔再現モデルFaR-GANを提案する。
提案手法は,音源の同一性,表情,頭部ポーズ,さらには画像背景についても仮定しない。
論文 参考訳(メタデータ) (2020-05-13T16:15:37Z) - It's Written All Over Your Face: Full-Face Appearance-Based Gaze
Estimation [82.16380486281108]
顔の全体像のみを入力とする外観に基づく手法を提案する。
本手法は,特徴写像に空間重みを印加した畳み込みニューラルネットワークを用いて顔画像の符号化を行う。
本手法は2次元視線と3次元視線の両方で技量を有意に上回ることを示す。
論文 参考訳(メタデータ) (2016-11-27T15:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。