論文の概要: SPARK: Self-supervised Personalized Real-time Monocular Face Capture
- arxiv url: http://arxiv.org/abs/2409.07984v1
- Date: Thu, 12 Sep 2024 12:30:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-13 16:39:03.535762
- Title: SPARK: Self-supervised Personalized Real-time Monocular Face Capture
- Title(参考訳): SPARK: パーソナライズされたリアルタイムモノクラーフェイスキャプチャー
- Authors: Kelian Baert, Shrisha Bharadwaj, Fabien Castan, Benoit Maujean, Marc Christie, Victoria Abrevaya, Adnane Boukhayma,
- Abstract要約: 現在の最先端技術では、パラメトリックな3D顔モデルを幅広いアイデンティティにわたってリアルタイムに再現することができる。
本稿では,被写体の制約のない映像を先行情報として活用し,高精度な3次元顔撮影手法を提案する。
- 参考スコア(独自算出の注目度): 6.093606972415841
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Feedforward monocular face capture methods seek to reconstruct posed faces from a single image of a person. Current state of the art approaches have the ability to regress parametric 3D face models in real-time across a wide range of identities, lighting conditions and poses by leveraging large image datasets of human faces. These methods however suffer from clear limitations in that the underlying parametric face model only provides a coarse estimation of the face shape, thereby limiting their practical applicability in tasks that require precise 3D reconstruction (aging, face swapping, digital make-up, ...). In this paper, we propose a method for high-precision 3D face capture taking advantage of a collection of unconstrained videos of a subject as prior information. Our proposal builds on a two stage approach. We start with the reconstruction of a detailed 3D face avatar of the person, capturing both precise geometry and appearance from a collection of videos. We then use the encoder from a pre-trained monocular face reconstruction method, substituting its decoder with our personalized model, and proceed with transfer learning on the video collection. Using our pre-estimated image formation model, we obtain a more precise self-supervision objective, enabling improved expression and pose alignment. This results in a trained encoder capable of efficiently regressing pose and expression parameters in real-time from previously unseen images, which combined with our personalized geometry model yields more accurate and high fidelity mesh inference. Through extensive qualitative and quantitative evaluation, we showcase the superiority of our final model as compared to state-of-the-art baselines, and demonstrate its generalization ability to unseen pose, expression and lighting.
- Abstract(参考訳): フィードフォワード単眼顔撮影法は、人物の単一画像から顔の再構成を試みる。
現在の最先端のアプローチは、人間の顔の大規模な画像データセットを活用することで、幅広いアイデンティティ、照明条件、ポーズをリアルタイムでパラメトリックな3D顔モデルを復元する能力を持っている。
しかし、これらの手法は、基礎となるパラメトリック顔モデルが顔の形状を粗く見積もるだけで、正確な3D再構成を必要とするタスク(年齢、顔交換、デジタルメイクアップ、...)における実用性を制限するという明確な制限を被っている。
本稿では,被写体の制約のない映像を先行情報として活用し,高精度な3次元顔撮影手法を提案する。
私たちの提案は2段階のアプローチに基づいている。
まず、人物の詳細な3D顔アバターを復元し、ビデオの集合から正確な形状と外観の両方を捉えます。
次に,事前学習した単眼顔再構成法を用いて,そのデコーダをパーソナライズしたモデルに置換し,ビデオコレクションの転送学習を進める。
予め推定した画像形成モデルを用いて、より正確な自己超越目標を求め、表現の改善とポーズアライメントを実現する。
これにより,従来は見えなかった画像からポーズパラメータや表現パラメータをリアルタイムに回帰させることができる訓練されたエンコーダが実現され,より正確で忠実なメッシュ推定が可能となった。
定性的かつ定量的な評価を通じて、現状のベースラインと比較して最終モデルの優位性を示し、ポーズ、表現、照明の一般化能力を示す。
関連論文リスト
- Generalizable One-shot Neural Head Avatar [90.50492165284724]
本研究では,1枚の画像から3次元頭部アバターを再構成し,アニメイトする手法を提案する。
本研究では,一視点画像に基づく識別不能な人物を一般化するだけでなく,顔領域内外における特徴的詳細を捉えるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-14T22:33:09Z) - Facial Geometric Detail Recovery via Implicit Representation [147.07961322377685]
そこで本研究では,一眼の顔画像のみを用いて,テクスチャガイドを用いた幾何的細部復元手法を提案する。
提案手法は,高品質なテクスチャ補完と暗黙の面の強力な表現性を組み合わせたものである。
本手法は, 顔の正確な細部を復元するだけでなく, 正常部, アルベド部, シェーディング部を自己監督的に分解する。
論文 参考訳(メタデータ) (2022-03-18T01:42:59Z) - LiP-Flow: Learning Inference-time Priors for Codec Avatars via
Normalizing Flows in Latent Space [90.74976459491303]
実行時入力に条件付けされた先行モデルを導入し、この先行空間を潜伏空間の正規化フローを介して3次元顔モデルに結びつける。
正規化フローは2つの表現空間をブリッジし、潜在サンプルをある領域から別の領域に変換することで、潜在可能性の目的を定義する。
提案手法は,表情のダイナミックスや微妙な表現をよりよく捉えることによって,表現的かつ効果的に先行することを示す。
論文 参考訳(メタデータ) (2022-03-15T13:22:57Z) - Thinking the Fusion Strategy of Multi-reference Face Reenactment [4.1509697008011175]
複数の参照画像を用いた単純な拡張は生成品質を著しく向上させることを示す。
本研究は,1)公開データセットの再構成作業,2)複数人の頭部運動映像シーケンスからなる元のデータセットの顔の動き伝達,3)新たに提案した評価指標を用いて,提案手法がより定量的な結果が得られることを検証した。
論文 参考訳(メタデータ) (2022-02-22T09:17:26Z) - Learning to Aggregate and Personalize 3D Face from In-the-Wild Photo
Collection [65.92058628082322]
非パラメトリックフェースモデリングは形状仮定なしで画像からのみ3次元フェースを再構成することを目的としている。
本稿では,教師なしのロバストな3次元顔モデリングのための学習・アグリゲート・パーソナライズ・フレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-15T03:10:17Z) - Learning 3D Face Reconstruction with a Pose Guidance Network [49.13404714366933]
ポーズ誘導ネットワーク(PGN)を用いた単眼3次元顔再構成学習のための自己指導型学習手法を提案する。
まず,従来のパラメトリックな3次元顔の学習手法におけるポーズ推定のボトルネックを明らかにし,ポーズパラメータの推定に3次元顔のランドマークを活用することを提案する。
我々のデザインしたPGNでは、完全にラベル付けされた3Dランドマークと無制限にラベル付けされた未使用の顔画像で両方の顔から学習できる。
論文 参考訳(メタデータ) (2020-10-09T06:11:17Z) - Learning Complete 3D Morphable Face Models from Images and Videos [88.34033810328201]
本稿では,画像やビデオから顔形状,アルベド,表現の完全な3次元モデルを学ぶための最初のアプローチを提案する。
既存の手法よりも,学習モデルの方がより一般化し,高品質な画像ベース再構築につながることを示す。
論文 参考訳(メタデータ) (2020-10-04T20:51:23Z) - Personalized Face Modeling for Improved Face Reconstruction and Motion
Retargeting [22.24046752858929]
本稿では、ユーザごとのパーソナライズされた顔モデルとフレームごとの顔の動きパラメータを共同で学習するエンドツーエンドフレームワークを提案する。
具体的には、パーソナライズされた修正を予測することによって、ユーザ固有の表現と動的(表現固有の)アルベドマップのブレンドを学習する。
実験結果から, 顔の微細な動態を広範囲の状況で正確に把握できることが示唆された。
論文 参考訳(メタデータ) (2020-07-14T01:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。