論文の概要: A Generative Framework for Self-Supervised Facial Representation Learning
- arxiv url: http://arxiv.org/abs/2309.08273v4
- Date: Thu, 23 May 2024 03:40:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-26 20:52:56.246734
- Title: A Generative Framework for Self-Supervised Facial Representation Learning
- Title(参考訳): 自己監督型顔表現学習のための生成フレームワーク
- Authors: Ruian He, Zhen Xing, Weimin Tan, Bo Yan,
- Abstract要約: 自己教師付き表現学習は、ペア化されたデータセットに頼ることなく、強力な一般化能力に注目されるようになった。
自己監督型顔表現学習は、顔のアイデンティティ、表情、ポーズや光といった外部要因の結合により未解決のままである。
自己教師型顔表現のための新しい生成フレームワークであるLatentFaceを提案する。
- 参考スコア(独自算出の注目度): 18.094262972295702
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised representation learning has gained increasing attention for strong generalization ability without relying on paired datasets. However, it has not been explored sufficiently for facial representation. Self-supervised facial representation learning remains unsolved due to the coupling of facial identities, expressions, and external factors like pose and light. Prior methods primarily focus on contrastive learning and pixel-level consistency, leading to limited interpretability and suboptimal performance. In this paper, we propose LatentFace, a novel generative framework for self-supervised facial representations. We suggest that the disentangling problem can be also formulated as generative objectives in space and time, and propose the solution using a 3D-aware latent diffusion model. First, we introduce a 3D-aware autoencoder to encode face images into 3D latent embeddings. Second, we propose a novel representation diffusion model to disentangle 3D latent into facial identity and expression. Consequently, our method achieves state-of-the-art performance in facial expression recognition (FER) and face verification among self-supervised facial representation learning models. Our model achieves a 3.75\% advantage in FER accuracy on RAF-DB and 3.35\% on AffectNet compared to SOTA methods.
- Abstract(参考訳): 自己教師付き表現学習は、ペア化されたデータセットに頼ることなく、強力な一般化能力に注目されるようになった。
しかし、顔の表現には不十分である。
自己監督型顔表現学習は、顔のアイデンティティ、表情、ポーズや光といった外部要因の結合により未解決のままである。
従来の手法は主にコントラスト学習とピクセルレベルの一貫性に重点を置いており、解釈可能性や準最適性能が制限されている。
本稿では,自己教師型顔表現のための新しい生成フレームワークであるLatentFaceを提案する。
本稿では,空間的および時間的生成目標として解法を定式化することも提案し,その解法を3D対応潜伏拡散モデルを用いて提案する。
まず,顔画像を3次元ラテント埋め込みに符号化する3D対応オートエンコーダを提案する。
第二に,3次元ラテントを顔の同一性や表情に分解する表現拡散モデルを提案する。
その結果,顔表情認識(FER)における最先端性能と,自己教師型顔表情学習モデルにおける顔認証を実現した。
我々のモデルは、RAF-DB上でのFER精度が3.75\%、AffectNetで3.35\%であるのに対し、SOTA法では3.75\%である。
関連論文リスト
- OSDFace: One-Step Diffusion Model for Face Restoration [72.5045389847792]
拡散モデルは、顔の修復において顕著な性能を示した。
顔復元のための新しいワンステップ拡散モデルOSDFaceを提案する。
その結果,OSDFaceは現状のSOTA(State-of-the-art)手法を視覚的品質と定量的指標の両方で上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-26T07:07:48Z) - Ig3D: Integrating 3D Face Representations in Facial Expression Inference [12.975434103690812]
本研究の目的は,表情推論タスクに3次元表現を統合することの影響を検討することである。
まず、FEIタスクにおける2つの3次元顔表現(どちらも3次元形態素モデル、FLAMEに基づく)の性能を評価する。
次に、既存の2D推論フレームワークと3D顔表現を統合するために、中間融合と後期融合という2つの融合アーキテクチャについて検討する。
提案手法は,最先端のAffectNet VA推定とRAF-DB分類タスクより優れている。
論文 参考訳(メタデータ) (2024-08-29T21:08:07Z) - FitDiff: Robust monocular 3D facial shape and reflectance estimation using Diffusion Models [79.65289816077629]
拡散型3次元顔アバター生成モデルFitDiffを提案する。
本モデルでは,「近距離」2次元顔画像から抽出したアイデンティティ埋め込みを利用して,再現性のある顔アバターを高精度に生成する。
FitDiffは、顔認識の埋め込みを前提とした最初の3D LDMであり、一般的なレンダリングエンジンで使用可能な、ライティング可能な人間のアバターを再構築する。
論文 参考訳(メタデータ) (2023-12-07T17:35:49Z) - 3DMM-RF: Convolutional Radiance Fields for 3D Face Modeling [111.98096975078158]
本稿では,1つのパスを1つのパスで合成し,必要なニューラルネットワークのレンダリングサンプルのみを合成するスタイルベースの生成ネットワークを提案する。
このモデルは、任意のポーズと照明の顔画像に正確に適合し、顔の特徴を抽出し、制御可能な条件下で顔を再レンダリングするために使用できることを示す。
論文 参考訳(メタデータ) (2022-09-15T15:28:45Z) - Controllable 3D Generative Adversarial Face Model via Disentangling
Shape and Appearance [63.13801759915835]
3次元顔モデリングはコンピュータビジョンとコンピュータグラフィックスの研究の活発な領域である。
本稿では,識別と表現を分離できる新しい3次元顔生成モデルを提案する。
論文 参考訳(メタデータ) (2022-08-30T13:40:48Z) - Learning to Aggregate and Personalize 3D Face from In-the-Wild Photo
Collection [65.92058628082322]
非パラメトリックフェースモデリングは形状仮定なしで画像からのみ3次元フェースを再構成することを目的としている。
本稿では,教師なしのロバストな3次元顔モデリングのための学習・アグリゲート・パーソナライズ・フレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-15T03:10:17Z) - Disentangled Face Identity Representations for joint 3D Face Recognition
and Expression Neutralisation [20.854071758664297]
提案手法は,3次元顔が与えられた場合,不整合性表現を抽出するだけでなく,その同一性を予測しながら中性表現を伴う現実的な3次元顔を生成する。
提案するネットワークは,(1)3次元顔から潜在表現を符号化するグラフ畳み込みオートエンコーダ(gca),(2)潜在表現を中性顔の表現に変換する生成逆ネットワーク(gan)、(3)3次元顔認識のための中性潜在表現を利用した識別サブネットワークの3つの構成要素から構成されている。
論文 参考訳(メタデータ) (2021-04-20T22:33:10Z) - DeepFaceFlow: In-the-wild Dense 3D Facial Motion Estimation [56.56575063461169]
DeepFaceFlowは、3D非剛体顔の流れを推定するための堅牢で高速で高精度なフレームワークである。
私たちのフレームワークは、2つの非常に大規模な顔ビデオデータセットでトレーニングされ、テストされました。
登録された画像に対して,60fpsで3次元フローマップを生成する。
論文 参考訳(メタデータ) (2020-05-14T23:56:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。