論文の概要: VGGTFace: Topologically Consistent Facial Geometry Reconstruction in the Wild
- arxiv url: http://arxiv.org/abs/2511.20366v1
- Date: Tue, 25 Nov 2025 14:45:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.514286
- Title: VGGTFace: Topologically Consistent Facial Geometry Reconstruction in the Wild
- Title(参考訳): VGGTFace: 野生の顔面形状再構成
- Authors: Xin Ming, Yuxuan Han, Tianyu Huang, Feng Xu,
- Abstract要約: VGGTFaceは、眼内画像からトポロジカルに一貫した顔形状再構成を行うための自動アプローチである。
We augment VGGT with Pixel3DMM for Injecting Topology information through pixel-aligned UV values。
実験では、ベンチマークにおける最先端の結果と、ワイルドデータに対する印象的な一般化が示されている。
- 参考スコア(独自算出の注目度): 19.22685211889589
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reconstructing topologically consistent facial geometry is crucial for the digital avatar creation pipelines. Existing methods either require tedious manual efforts, lack generalization to in-the-wild data, or are constrained by the limited expressiveness of 3D Morphable Models. To address these limitations, we propose VGGTFace, an automatic approach that innovatively applies the 3D foundation model, \emph{i.e.} VGGT, for topologically consistent facial geometry reconstruction from in-the-wild multi-view images captured by everyday users. Our key insight is that, by leveraging VGGT, our method naturally inherits strong generalization ability and expressive power from its large-scale training and point map representation. However, it is unclear how to reconstruct a topologically consistent mesh from VGGT, as the topology information is missing in its prediction. To this end, we augment VGGT with Pixel3DMM for injecting topology information via pixel-aligned UV values. In this manner, we convert the pixel-aligned point map of VGGT to a point cloud with topology. Tailored to this point cloud with known topology, we propose a novel Topology-Aware Bundle Adjustment strategy to fuse them, where we construct a Laplacian energy for the Bundle Adjustment objective. Our method achieves high-quality reconstruction in 10 seconds for 16 views on a single NVIDIA RTX 4090. Experiments demonstrate state-of-the-art results on benchmarks and impressive generalization to in-the-wild data. Code is available at https://github.com/grignarder/vggtface.
- Abstract(参考訳): トポロジ的に一貫した顔形状の再構成は、デジタルアバター生成パイプラインにとって不可欠である。
既存の方法は、面倒な手作業を必要とするか、Wildデータへの一般化が欠如しているか、あるいは3D形態モデルの限られた表現性に制約されているかのいずれかである。
これらの制約に対処するため,VGGTFaceを提案する。VGGTは3Dファウンデーションモデルである \emph{i.e.} VGGT を革新的に応用し,日々のユーザによって撮影されたマルチビュー画像からトポロジ的に一貫した顔形状の再構成を行う。
我々の重要な洞察は、VGGTを利用することで、我々の手法は、その大規模学習と点マップ表現から、強い一般化能力と表現力を自然に継承することである。
しかし、その予測にトポロジ情報が欠落しているため、VGGTからトポロジ的に一貫したメッシュをどのように再構築するかは不明である。
この目的のために,VGGTをPixel3DMMで拡張し,画素対応UV値を用いてトポロジ情報を注入する。
このようにして、VGGT の画素整列点写像を位相付き点雲に変換する。
この点の雲に既知のトポロジを持ち、それらを融合させる新しいトポロジ・アウェア・バンドル・アジャイメント戦略を提案し、バンドル・アジャイメントの目的のためにラプラシアンエネルギーを構築する。
提案手法は,NVIDIA RTX 4090の16ビューに対して10秒で高品質な再構成を実現する。
実験では、ベンチマークにおける最先端の結果と、ワイルドデータに対する印象的な一般化が示されている。
コードはhttps://github.com/grignarder/vggtface.comで入手できる。
関連論文リスト
- FastVGGT: Training-Free Acceleration of Visual Geometry Transformer [83.67766078575782]
VGGTは最先端のフィードフォワード視覚幾何学モデルである。
本稿では,VGGTの高速化のためのトレーニングフリーメカニズムを用いて,3次元領域におけるトークンのマージを利用したFastVGGTを提案する。
1000の入力画像により、FastVGGTはVGGTの4倍の高速化を実現し、長いシーケンスシナリオにおけるエラーの蓄積を緩和する。
論文 参考訳(メタデータ) (2025-09-02T17:54:21Z) - VGGT: Visual Geometry Grounded Transformer [61.37669770946458]
VGGTは、シーンのすべての重要な3D属性を直接推論するフィードフォワードニューラルネットワークである。
ネットワークは、複数の3Dタスクで最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-03-14T17:59:47Z) - Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。
従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。
GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-06-21T17:49:31Z) - GeoGen: Geometry-Aware Generative Modeling via Signed Distance Functions [22.077366472693395]
単一ビューコレクションから3次元形状と画像を合成するための新しい生成手法を提案する。
ニューラルラディアンス場を用いたボリュームレンダリングを用いることで、生成した幾何学はノイズが多く、制約がないという重要な制限を継承する。
エンド・ツー・エンドで訓練された新しいSDFベースの3D生成モデルであるGeoGenを提案する。
論文 参考訳(メタデータ) (2024-06-06T17:00:10Z) - Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud
Analysis [66.49788145564004]
我々は、任意の幾何学と位相の不規則な3次元点雲を表現するために、Flattning-Netと呼ばれる教師なしのディープニューラルネットワークを提案する。
我々の手法は、現在の最先端の競合相手に対して好意的に機能する。
論文 参考訳(メタデータ) (2022-12-17T15:05:25Z) - Learnable Triangulation for Deep Learning-based 3D Reconstruction of
Objects of Arbitrary Topology from Single RGB Images [12.693545159861857]
モノクロ画像から3次元物体を再構成する深層強化学習手法を提案する。
提案手法は, 視覚的品質, 再構成精度, 計算時間において, 最先端技術よりも優れる。
論文 参考訳(メタデータ) (2021-09-24T09:44:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。