論文の概要: Pixel3DMM: Versatile Screen-Space Priors for Single-Image 3D Face Reconstruction
- arxiv url: http://arxiv.org/abs/2505.00615v1
- Date: Thu, 01 May 2025 15:47:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.360787
- Title: Pixel3DMM: Versatile Screen-Space Priors for Single-Image 3D Face Reconstruction
- Title(参考訳): Pixel3DMM:シングルイメージの3D顔再構成に先駆けて画面スペースが多機能化
- Authors: Simon Giebenhain, Tobias Kirschstein, Martin Rünz, Lourdes Agapito, Matthias Nießner,
- Abstract要約: 画素ごとの幾何学的手がかりを予測する高一般化ビジョン変換器のセットであるPixel3DMMを提案する。
FLAMEメッシュトポロジに対して,高品質な3次元顔データセットを3つ登録することで,モデルをトレーニングする。
提案手法は,顔表情の幾何的精度において,最も競争力の高いベースラインを15%以上上回る。
- 参考スコア(独自算出の注目度): 46.52887358194364
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address the 3D reconstruction of human faces from a single RGB image. To this end, we propose Pixel3DMM, a set of highly-generalized vision transformers which predict per-pixel geometric cues in order to constrain the optimization of a 3D morphable face model (3DMM). We exploit the latent features of the DINO foundation model, and introduce a tailored surface normal and uv-coordinate prediction head. We train our model by registering three high-quality 3D face datasets against the FLAME mesh topology, which results in a total of over 1,000 identities and 976K images. For 3D face reconstruction, we propose a FLAME fitting opitmization that solves for the 3DMM parameters from the uv-coordinate and normal estimates. To evaluate our method, we introduce a new benchmark for single-image face reconstruction, which features high diversity facial expressions, viewing angles, and ethnicities. Crucially, our benchmark is the first to evaluate both posed and neutral facial geometry. Ultimately, our method outperforms the most competitive baselines by over 15% in terms of geometric accuracy for posed facial expressions.
- Abstract(参考訳): 単一のRGB画像から人間の顔の3次元再構成を行う。
この目的のために,Pixel3DMMを提案する。これは3D形態素顔モデル(3DMM)の最適化を制約するために,画素ごとの幾何学的手がかりを予測する,高一般化された視覚変換器である。
我々は,DINO基礎モデルの潜在的特徴を生かし,表面の正規化とuv座標予測ヘッドを導入する。
FLAMEメッシュトポロジーに対して,高品質な3次元顔データセットを3つ登録することで,1,000以上のIDと976K画像を生成することで,モデルをトレーニングする。
3次元顔の再構成のために,uv座標および正規推定値から3次元MMパラメータを解くFLAMEフィッティングオピタイゼーションを提案する。
本手法を評価するために,多彩な表情,視角,民族を特徴とする単一画像の顔再構成のための新しいベンチマークを提案する。
重要な点として、我々のベンチマークは、ポーズと中立な顔形状の両方を評価する最初のものである。
最終的に,提案手法は顔表情の幾何的精度において,最も競争力のあるベースラインを15%以上上回っている。
関連論文リスト
- A Hierarchical Representation Network for Accurate and Detailed Face
Reconstruction from In-The-Wild Images [15.40230841242637]
本稿では,1つの画像から正確な顔再構成を実現するために,新しい階層型表現ネットワーク(HRN)を提案する。
我々のフレームワークは、異なるビューの詳細な一貫性を考慮し、マルチビューに拡張することができる。
本手法は,再現精度と視覚効果の両方において既存手法より優れる。
論文 参考訳(メタデータ) (2023-02-28T09:24:36Z) - Beyond 3DMM: Learning to Capture High-fidelity 3D Face Shape [77.95154911528365]
3Dモーフィブルモデル(3DMM)の適合性は、その強力な3D先行性のため、顔解析に広く有用である。
以前に再建された3次元顔は、微細な形状が失われるため、視差の低下に悩まされていた。
本論文は, パーソナライズされた形状が対応する人物と同一に見えるよう, パーソナライズされた形状を捉えるための完全な解を提案する。
論文 参考訳(メタデータ) (2022-04-09T03:46:18Z) - AvatarMe++: Facial Shape and BRDF Inference with Photorealistic
Rendering-Aware GANs [119.23922747230193]
そこで本研究では,レンダリング可能な3次元顔形状とBRDFの再構成を,単一の"in-the-wild"画像から実現した最初の手法を提案する。
本手法は,1枚の低解像度画像から,高解像度の3次元顔の再構成を行う。
論文 参考訳(メタデータ) (2021-12-11T11:36:30Z) - Implicit Neural Deformation for Multi-View Face Reconstruction [43.88676778013593]
マルチビューRGB画像から新しい3次元顔再構成法を提案する。
従来の3次元形態素モデルに基づく手法とは異なり,本手法は暗黙の表現を利用してリッチな幾何学的特徴を符号化する。
いくつかのベンチマークデータセットに対する実験結果から,提案手法は代替ベースラインよりも優れ,最先端の手法に比べて優れた顔再構成結果が得られることが示された。
論文 参考訳(メタデータ) (2021-12-05T07:02:53Z) - FaceScape: 3D Facial Dataset and Benchmark for Single-View 3D Face
Reconstruction [29.920622006999732]
大規模な3次元顔データセット、FaceScape、およびそれに対応するベンチマークを提示し、単視点顔の3次元再構成を評価する。
FaceScapeデータをトレーニングすることにより、単一の画像入力から精巧な3次元顔モデルを予測する新しいアルゴリズムを提案する。
また、FaceScapeデータを用いて、最新の単一視点顔再構成手法の評価を行う。
論文 参考訳(メタデータ) (2021-11-01T16:48:34Z) - SIDER: Single-Image Neural Optimization for Facial Geometric Detail
Recovery [54.64663713249079]
SIDERは、教師なしの方法で単一の画像から詳細な顔形状を復元する新しい光度最適化手法である。
以前の作業とは対照的に、SIDERはデータセットの事前に依存せず、複数のビュー、照明変更、地上の真実の3D形状から追加の監視を必要としない。
論文 参考訳(メタデータ) (2021-08-11T22:34:53Z) - Fast-GANFIT: Generative Adversarial Network for High Fidelity 3D Face
Reconstruction [76.1612334630256]
我々は、GAN(Generative Adversarial Networks)とDCNN(Deep Convolutional Neural Networks)の力を利用して、単一画像から顔のテクスチャと形状を再構築する。
3次元顔再構成を保存したフォトリアリスティックでアイデンティティに優れた結果を示し, 初めて, 高精度な顔テクスチャ再構成を実現する。
論文 参考訳(メタデータ) (2021-05-16T16:35:44Z) - Inverting Generative Adversarial Renderer for Face Reconstruction [58.45125455811038]
本稿では,GAR(Generative Adversa Renderer)について紹介する。
GARは、グラフィックルールに頼るのではなく、複雑な現実世界のイメージをモデル化することを学ぶ。
本手法は,複数顔再構成における最先端性能を実現する。
論文 参考訳(メタデータ) (2021-05-06T04:16:06Z) - Pixel-Face: A Large-Scale, High-Resolution Benchmark for 3D Face
Reconstruction [15.51331644571456]
我々は大規模で高解像度で多様な3D顔データセットであるPixel-Faceを紹介した。
具体的には、Pixel-Faceには18歳から80歳までの855人の被験者が含まれており、各被験者は様々な表現を持つ20以上のサンプルを持っている。
得られたPixel-3DMは,幅広い顔形状や表情をモデル化する上で優れていることを示す。
論文 参考訳(メタデータ) (2020-08-28T02:22:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。