Fugu-MT 論文翻訳(概要): Skullptor: High Fidelity 3D Head Reconstruction in Seconds with Multi-View Normal Prediction

論文の概要: Skullptor: High Fidelity 3D Head Reconstruction in Seconds with Multi-View Normal Prediction

arxiv url: http://arxiv.org/abs/2602.21100v1
Date: Tue, 24 Feb 2026 17:02:11 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.851293
Title: Skullptor: High Fidelity 3D Head Reconstruction in Seconds with Multi-View Normal Prediction
Title（参考訳）: Skullptor:多視点正規予測による秒間高忠実度3次元頭部再構成
Authors: Noé Artru, Rukhshanda Hussain, Emeline Got, Alexandre Messier, David B. Lindell, Abdallah Dib,
Abstract要約: 従来のフォトグラメトリでは、顔の毛髪のような困難な領域で、広範囲のカメラアレイ、相当な計算、手作業によるクリーンアップが必要である。基礎モデルは効率的な単一像再構成を可能にするが、細かい幾何学的詳細は欠如している。本手法は,高精細度フォトグラム法と同等の高忠実度再構成を実現するため,最先端の単一画像・複数ビュー法より優れる。
参考スコア（独自算出の注目度）: 46.85059671299748
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reconstructing high-fidelity 3D head geometry from images is critical for a wide range of applications, yet existing methods face fundamental limitations. Traditional photogrammetry achieves exceptional detail but requires extensive camera arrays (25-200+ views), substantial computation, and manual cleanup in challenging areas like facial hair. Recent alternatives present a fundamental trade-off: foundation models enable efficient single-image reconstruction but lack fine geometric detail, while optimization-based methods achieve higher fidelity but require dense views and expensive computation. We bridge this gap with a hybrid approach that combines the strengths of both paradigms. Our method introduces a multi-view surface normal prediction model that extends monocular foundation models with cross-view attention to produce geometrically consistent normals in a feed-forward pass. We then leverage these predictions as strong geometric priors within an inverse rendering optimization framework to recover high-frequency surface details. Our approach outperforms state-of-the-art single-image and multi-view methods, achieving high-fidelity reconstruction on par with dense-view photogrammetry while reducing camera requirements and computational cost. The code and model will be released.
Abstract（参考訳）: 画像から高忠実度3Dヘッドジオメトリを再構成することは、幅広いアプリケーションにとって重要であるが、既存の手法は基本的な制約に直面している。従来のフォトグラメトリーは例外的な細部を達成しているが、顔の毛髪のような困難な領域ではカメラアレイ(25-200以上のビュー)、相当な計算、手作業によるクリーニングが必要である。ファンデーションモデルは効率的な単一イメージの再構築を可能にするが、詳細な幾何学的詳細は欠如する一方、最適化に基づく手法は高い忠実性を達成するが、高密度なビューと高価な計算を必要とする。このギャップを、両方のパラダイムの長所を組み合わせたハイブリッドアプローチで埋めます。本手法では, 単分子基底モデルを拡張した多視点表面正規予測モデルを導入し, フィードフォワードパスにおいて幾何的に一貫した正規値を生成する。次に、これらの予測を逆レンダリング最適化フレームワーク内の強力な幾何学的先行要素として利用し、高周波表面の詳細を復元する。本手法は,高精細度フォトグラム法と同等の高忠実度再構成を実現するとともに,カメラ要件や計算コストを低減し,最先端のシングルイメージ・マルチビュー手法より優れる。コードとモデルはリリースされる。

関連論文リスト

Blur2Sharp: Human Novel Pose and View Synthesis with Generative Prior Refinement [6.91111219679588]
Blur2Sharpは、3D対応ニューラルレンダリングと拡散モデルを統合して、シャープで幾何学的に一貫した新しいビュー画像を生成する新しいフレームワークである。まず、人間のNeRFモデルを用いて、ターゲットポーズのための幾何学的コヒーレントなマルチビューレンダリングを生成し、3次元構造ガイダンスを明示的に符号化する。我々はさらに、階層的特徴融合により視覚的品質を向上し、パラメトリックSMPLモデルから抽出したテクスチャ、正常、セマンティック先行を取り入れ、グローバルコヒーレンスと局所的詳細精度を同時に改善する。
論文参考訳（メタデータ） (2025-12-09T03:49:12Z)
Pixel3DMM: Versatile Screen-Space Priors for Single-Image 3D Face Reconstruction [46.52887358194364]
画素ごとの幾何学的手がかりを予測する高一般化ビジョン変換器のセットであるPixel3DMMを提案する。 FLAMEメッシュトポロジに対して,高品質な3次元顔データセットを3つ登録することで,モデルをトレーニングする。提案手法は,顔表情の幾何的精度において,最も競争力の高いベースラインを15%以上上回る。
論文参考訳（メタデータ） (2025-05-01T15:47:03Z)
EasyHOI: Unleashing the Power of Large Models for Reconstructing Hand-Object Interactions in the Wild [79.71523320368388]
本研究の目的は,手動物体のインタラクションを単一視点画像から再構築することである。まず、手ポーズとオブジェクト形状を推定する新しいパイプラインを設計する。最初の再構築では、事前に誘導された最適化方式を採用する。
論文参考訳（メタデータ） (2024-11-21T16:33:35Z)
SPARK: Self-supervised Personalized Real-time Monocular Face Capture [6.093606972415841]
現在の最先端技術では、パラメトリックな3D顔モデルを幅広いアイデンティティにわたってリアルタイムに再現することができる。本稿では,被写体の制約のない映像を先行情報として活用し,高精度な3次元顔撮影手法を提案する。
論文参考訳（メタデータ） (2024-09-12T12:30:04Z)
HeadRecon: High-Fidelity 3D Head Reconstruction from Monocular Video [37.53752896927615]
任意のモノクラービデオから高忠実度3Dヘッドモデルの再構成について検討する。本稿では,これらの問題に対処するために,事前誘導型動的暗黙的ニューラルネットワークを提案する。
論文参考訳（メタデータ） (2023-12-14T12:38:56Z)
FaceVerse: a Fine-grained and Detail-controllable 3D Face Morphable Model from a Hybrid Dataset [36.688730105295015]
FaceVerseは60Kの融合RGB-D画像と2Kの高忠実度3Dヘッドスキャンモデルを含むハイブリッド東アジアの顔データセットから構築されている。粗いモジュールでは、大規模なRGB-D画像からベースパラメトリックモデルを生成し、性別や年齢などによって正確な3D顔モデルを予測することができる。高忠実度スキャンモデルで訓練された条件付きスタイルGANアーキテクチャを導入し、精巧な顔の幾何学的およびテクスチャ的詳細を表現した。
論文参考訳（メタデータ） (2022-03-26T12:13:14Z)
Facial Geometric Detail Recovery via Implicit Representation [147.07961322377685]
そこで本研究では,一眼の顔画像のみを用いて,テクスチャガイドを用いた幾何的細部復元手法を提案する。提案手法は,高品質なテクスチャ補完と暗黙の面の強力な表現性を組み合わせたものである。本手法は, 顔の正確な細部を復元するだけでなく, 正常部, アルベド部, シェーディング部を自己監督的に分解する。
論文参考訳（メタデータ） (2022-03-18T01:42:59Z)
SIDER: Single-Image Neural Optimization for Facial Geometric Detail Recovery [54.64663713249079]
SIDERは、教師なしの方法で単一の画像から詳細な顔形状を復元する新しい光度最適化手法である。以前の作業とは対照的に、SIDERはデータセットの事前に依存せず、複数のビュー、照明変更、地上の真実の3D形状から追加の監視を必要としない。
論文参考訳（メタデータ） (2021-08-11T22:34:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。