論文の概要: Pix2NPHM: Learning to Regress NPHM Reconstructions From a Single Image
- arxiv url: http://arxiv.org/abs/2512.17773v1
- Date: Fri, 19 Dec 2025 16:44:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.493385
- Title: Pix2NPHM: Learning to Regress NPHM Reconstructions From a Single Image
- Title(参考訳): Pix2NPHM:単一画像からNPHM再構成を学習する
- Authors: Simon Giebenhain, Tobias Kirschstein, Liam Schoneveld, Davide Davoli, Zhe Chen, Matthias Nießner,
- Abstract要約: NPHMパラメータを回帰する視覚変換器Pix2NPHMを提案する。
既存のアプローチと比較して、ニューラルネットワークにより、より認識可能な顔形状を再構築することができる。
我々は、Wildデータ上で大規模に実行可能な、前例のない顔の復元品質を実現する。
- 参考スコア(独自算出の注目度): 48.80951099813609
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Neural Parametric Head Models (NPHMs) are a recent advancement over mesh-based 3d morphable models (3DMMs) to facilitate high-fidelity geometric detail. However, fitting NPHMs to visual inputs is notoriously challenging due to the expressive nature of their underlying latent space. To this end, we propose Pix2NPHM, a vision transformer (ViT) network that directly regresses NPHM parameters, given a single image as input. Compared to existing approaches, the neural parametric space allows our method to reconstruct more recognizable facial geometry and accurate facial expressions. For broad generalization, we exploit domain-specific ViTs as backbones, which are pretrained on geometric prediction tasks. We train Pix2NPHM on a mixture of 3D data, including a total of over 100K NPHM registrations that enable direct supervision in SDF space, and large-scale 2D video datasets, for which normal estimates serve as pseudo ground truth geometry. Pix2NPHM not only allows for 3D reconstructions at interactive frame rates, it is also possible to improve geometric fidelity by a subsequent inference-time optimization against estimated surface normals and canonical point maps. As a result, we achieve unprecedented face reconstruction quality that can run at scale on in-the-wild data.
- Abstract(参考訳): ニューラルパラメトリックヘッドモデル(NPHMs)は、メッシュベースの3次元形態素モデル(3DMMs)の最近の進歩であり、高忠実度幾何学的詳細を促進する。
しかし、NPHMを視覚入力に適合させることは、その下にある潜伏空間の表現的な性質のため、非常に難しい。
そこで本研究では,NPHMパラメータを直接回帰する視覚変換器(ViT)ネットワークであるPix2NPHMを提案する。
既存のアプローチと比較して、ニューラルネットワークのパラメトリック空間により、より認識可能な顔形状と正確な表情を再構築することができる。
広範に一般化するために、幾何学的予測タスクで事前訓練された、ドメイン固有のViTをバックボーンとして利用する。
Pix2NPHMは、SDF空間の直接監視を可能にする100K NPHM登録と、通常の推定値が擬似基底真理幾何学として機能する大規模2Dビデオデータセットを含む、混合3Dデータに基づいて訓練される。
Pix2NPHMは、対話的なフレームレートで3次元再構成を可能にするだけでなく、推定表面正規度や標準点マップに対するその後の推測時間最適化によって幾何学的忠実度を向上させることもできる。
その結果、我々は、Wildデータ上で大規模に実行可能な、前例のない顔の復元品質を実現した。
関連論文リスト
- WorldMirror: Universal 3D World Reconstruction with Any-Prior Prompting [51.69408870574092]
汎用的な3次元幾何予測タスクのためのオールインワンフィードフォワードモデルであるWorldMirrorを提案する。
我々のフレームワークは、カメラのポーズ、内在性、深度マップなど、様々な幾何学的先入観を柔軟に統合する。
WorldMirrorは、カメラ、ポイントマップ、深さ、表面正規推定から新しいビュー合成に至るまで、さまざまなベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-10-12T17:59:09Z) - DiMeR: Disentangled Mesh Reconstruction Model [29.827345186012558]
DiMeRは、疎視メッシュ再構成のための3次元監視を備えた、幾何学的・テクスチュアなアンタングルフィードフォワードモデルである。
性能/コストの低いモジュールを排除し,正規化損失を再設計し,メッシュ抽出のアルゴリズムを効率化する。
大規模な実験により、DiMeRはスパースビュー、シングルイメージ、テキストから3Dタスクにまたがって一般化し、ベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2025-04-24T15:39:20Z) - Flatten Anything: Unsupervised Neural Surface Parameterization [76.4422287292541]
本研究では,FAM(Flatten Anything Model)を導入し,グローバルな自由境界面パラメータ化を実現する。
従来の手法と比較して,FAMは接続情報を活用することなく,個別の面上で直接動作する。
当社のFAMは前処理を必要とせずに完全に自動化されており,高度に複雑なトポロジを扱うことができる。
論文 参考訳(メタデータ) (2024-05-23T14:39:52Z) - MonoNPHM: Dynamic Head Reconstruction from Monocular Videos [47.504979561265536]
モノクラーRGBビデオからの動的3次元頭部再構成のためのモノクラーニューラルパラメトリックヘッドモデル(MonoNPHM)を提案する。
我々は、RGBからの勾配が逆レンダリング中の潜時幾何学符号に効果的に影響を及ぼすような、下層の幾何学と相関する予測色値を制約する。
論文 参考訳(メタデータ) (2023-12-11T17:55:05Z) - DiViNeT: 3D Reconstruction from Disparate Views via Neural Template
Regularization [7.488962492863031]
本稿では3つの異なるRGB画像を入力として用いたボリュームレンダリングに基づくニューラルサーフェス再構成手法を提案する。
我々のキーとなる考え方は再建を規則化することであり、これは深刻な問題であり、スパースビューの間に大きなギャップを埋めることである。
提案手法は, 従来の手法の中でも, 疎外な視点で, 最高の復元品質を達成できる。
論文 参考訳(メタデータ) (2023-06-07T18:05:14Z) - LiP-Flow: Learning Inference-time Priors for Codec Avatars via
Normalizing Flows in Latent Space [90.74976459491303]
実行時入力に条件付けされた先行モデルを導入し、この先行空間を潜伏空間の正規化フローを介して3次元顔モデルに結びつける。
正規化フローは2つの表現空間をブリッジし、潜在サンプルをある領域から別の領域に変換することで、潜在可能性の目的を定義する。
提案手法は,表情のダイナミックスや微妙な表現をよりよく捉えることによって,表現的かつ効果的に先行することを示す。
論文 参考訳(メタデータ) (2022-03-15T13:22:57Z) - H3D-Net: Few-Shot High-Fidelity 3D Head Reconstruction [27.66008315400462]
表面形状を暗黙的に表現する最近の学習手法は、多視点3次元再構成の問題において顕著な結果を示している。
我々はこれらの制限を,数発のフル3次元頭部再構成の特定の問題に対処する。
暗黙の表現を用いて,数千個の不完全な生スキャンから3次元頭部形状モデルを学習する。
論文 参考訳(メタデータ) (2021-07-26T23:04:18Z) - Learning Deformable Tetrahedral Meshes for 3D Reconstruction [78.0514377738632]
学習に基づく3次元再構成に対応する3次元形状表現は、機械学習とコンピュータグラフィックスにおいてオープンな問題である。
ニューラル3D再構成に関するこれまでの研究は、利点だけでなく、ポイントクラウド、ボクセル、サーフェスメッシュ、暗黙の関数表現といった制限も示していた。
Deformable Tetrahedral Meshes (DefTet) を, ボリューム四面体メッシュを再構成問題に用いるパラメータ化として導入する。
論文 参考訳(メタデータ) (2020-11-03T02:57:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。