論文の概要: Unsupervised Disentangling of Facial Representations with 3D-aware
Latent Diffusion Models
- arxiv url: http://arxiv.org/abs/2309.08273v1
- Date: Fri, 15 Sep 2023 09:34:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 15:03:23.241530
- Title: Unsupervised Disentangling of Facial Representations with 3D-aware
Latent Diffusion Models
- Title(参考訳): 3次元潜在拡散モデルを用いた顔表現の教師なしディアンタングリング
- Authors: Ruian He, Zhen Xing, Weimin Tan, Bo Yan
- Abstract要約: 顔表現と同一性表現のための非教師付き非教師付きアンタングリングフレームワークであるLatentFaceを提案する。
まず,顔画像を3次元ラテント埋め込みに符号化する3D対応オートエンコーダを提案する。
第2に,顔の識別と表情に3D潜伏する新しい表現拡散モデル(RDM)を提案する。
- 参考スコア(独自算出の注目度): 19.766682414244023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised learning of facial representations has gained increasing
attention for face understanding ability without heavily relying on large-scale
annotated datasets. However, it remains unsolved due to the coupling of facial
identities, expressions, and external factors like pose and light. Prior
methods primarily focus on 2D factors and pixel-level consistency, leading to
incomplete disentangling and suboptimal performance in downstream tasks. In
this paper, we propose LatentFace, a novel unsupervised disentangling framework
for facial expression and identity representation. We suggest the disentangling
problem should be performed in latent space and propose the solution using a
3D-ware latent diffusion model. First, we introduce a 3D-aware autoencoder to
encode face images into 3D latent embeddings. Second, we propose a novel
representation diffusion model (RDM) to disentangle 3D latent into facial
identity and expression. Consequently, our method achieves state-of-the-art
performance in facial expression recognition and face verification among
unsupervised facial representation learning models.
- Abstract(参考訳): 顔表現の教師なし学習は、大規模な注釈付きデータセットに大きく依存することなく、顔理解能力の注目を集めている。
しかし、顔の同一性、表情、ポーズや光といった外部要因の結合により未解決のままである。
従来の手法は主に2D因子とピクセルレベルの一貫性に重点を置いており、下流タスクでは不完全なアンタングリングと準最適性能をもたらす。
本稿では,顔表現と識別表現のための非教師付き非教師付きアンタングリングフレームワークであるLatentFaceを提案する。
本研究では, 潜時空間における不連続化問題を提案し, 3dウェア潜時拡散モデルを用いた解法を提案する。
まず,顔画像を3次元ラテント埋め込みに符号化する3D対応オートエンコーダを提案する。
第2に,顔の識別と表情に3D潜伏する新しい表現拡散モデル(RDM)を提案する。
その結果,教師なし顔表情学習モデルにおける表情認識と顔認証の最先端性能が得られた。
関連論文リスト
- OSDFace: One-Step Diffusion Model for Face Restoration [72.5045389847792]
拡散モデルは、顔の修復において顕著な性能を示した。
顔復元のための新しいワンステップ拡散モデルOSDFaceを提案する。
その結果,OSDFaceは現状のSOTA(State-of-the-art)手法を視覚的品質と定量的指標の両方で上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-26T07:07:48Z) - Ig3D: Integrating 3D Face Representations in Facial Expression Inference [12.975434103690812]
本研究の目的は,表情推論タスクに3次元表現を統合することの影響を検討することである。
まず、FEIタスクにおける2つの3次元顔表現(どちらも3次元形態素モデル、FLAMEに基づく)の性能を評価する。
次に、既存の2D推論フレームワークと3D顔表現を統合するために、中間融合と後期融合という2つの融合アーキテクチャについて検討する。
提案手法は,最先端のAffectNet VA推定とRAF-DB分類タスクより優れている。
論文 参考訳(メタデータ) (2024-08-29T21:08:07Z) - FitDiff: Robust monocular 3D facial shape and reflectance estimation using Diffusion Models [79.65289816077629]
拡散型3次元顔アバター生成モデルFitDiffを提案する。
本モデルでは,「近距離」2次元顔画像から抽出したアイデンティティ埋め込みを利用して,再現性のある顔アバターを高精度に生成する。
FitDiffは、顔認識の埋め込みを前提とした最初の3D LDMであり、一般的なレンダリングエンジンで使用可能な、ライティング可能な人間のアバターを再構築する。
論文 参考訳(メタデータ) (2023-12-07T17:35:49Z) - 3DMM-RF: Convolutional Radiance Fields for 3D Face Modeling [111.98096975078158]
本稿では,1つのパスを1つのパスで合成し,必要なニューラルネットワークのレンダリングサンプルのみを合成するスタイルベースの生成ネットワークを提案する。
このモデルは、任意のポーズと照明の顔画像に正確に適合し、顔の特徴を抽出し、制御可能な条件下で顔を再レンダリングするために使用できることを示す。
論文 参考訳(メタデータ) (2022-09-15T15:28:45Z) - Controllable 3D Generative Adversarial Face Model via Disentangling
Shape and Appearance [63.13801759915835]
3次元顔モデリングはコンピュータビジョンとコンピュータグラフィックスの研究の活発な領域である。
本稿では,識別と表現を分離できる新しい3次元顔生成モデルを提案する。
論文 参考訳(メタデータ) (2022-08-30T13:40:48Z) - Learning to Aggregate and Personalize 3D Face from In-the-Wild Photo
Collection [65.92058628082322]
非パラメトリックフェースモデリングは形状仮定なしで画像からのみ3次元フェースを再構成することを目的としている。
本稿では,教師なしのロバストな3次元顔モデリングのための学習・アグリゲート・パーソナライズ・フレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-15T03:10:17Z) - Disentangled Face Identity Representations for joint 3D Face Recognition
and Expression Neutralisation [20.854071758664297]
提案手法は,3次元顔が与えられた場合,不整合性表現を抽出するだけでなく,その同一性を予測しながら中性表現を伴う現実的な3次元顔を生成する。
提案するネットワークは,(1)3次元顔から潜在表現を符号化するグラフ畳み込みオートエンコーダ(gca),(2)潜在表現を中性顔の表現に変換する生成逆ネットワーク(gan)、(3)3次元顔認識のための中性潜在表現を利用した識別サブネットワークの3つの構成要素から構成されている。
論文 参考訳(メタデータ) (2021-04-20T22:33:10Z) - DeepFaceFlow: In-the-wild Dense 3D Facial Motion Estimation [56.56575063461169]
DeepFaceFlowは、3D非剛体顔の流れを推定するための堅牢で高速で高精度なフレームワークである。
私たちのフレームワークは、2つの非常に大規模な顔ビデオデータセットでトレーニングされ、テストされました。
登録された画像に対して,60fpsで3次元フローマップを生成する。
論文 参考訳(メタデータ) (2020-05-14T23:56:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。