論文の概要: FaceLift: Single Image to 3D Head with View Generation and GS-LRM
- arxiv url: http://arxiv.org/abs/2412.17812v1
- Date: Mon, 23 Dec 2024 18:59:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:56:31.448810
- Title: FaceLift: Single Image to 3D Head with View Generation and GS-LRM
- Title(参考訳): FaceLift:ビュージェネレーションとGS-LRMを備えた3Dヘッドへのシングルイメージ
- Authors: Weijie Lyu, Yi Zhou, Ming-Hsuan Yang, Zhixin Shu,
- Abstract要約: FaceLiftは、1枚の画像から高速で高品質な360度頭部再構築のためのフィードフォワード方式である。
FaceLiftは3次元頭部再構成において最先端の手法よりも優れており、実世界の画像に対する実用性とロバストな性能を強調している。
- 参考スコア(独自算出の注目度): 54.24070918942727
- License:
- Abstract: We present FaceLift, a feed-forward approach for rapid, high-quality, 360-degree head reconstruction from a single image. Our pipeline begins by employing a multi-view latent diffusion model that generates consistent side and back views of the head from a single facial input. These generated views then serve as input to a GS-LRM reconstructor, which produces a comprehensive 3D representation using Gaussian splats. To train our system, we develop a dataset of multi-view renderings using synthetic 3D human head as-sets. The diffusion-based multi-view generator is trained exclusively on synthetic head images, while the GS-LRM reconstructor undergoes initial training on Objaverse followed by fine-tuning on synthetic head data. FaceLift excels at preserving identity and maintaining view consistency across views. Despite being trained solely on synthetic data, FaceLift demonstrates remarkable generalization to real-world images. Through extensive qualitative and quantitative evaluations, we show that FaceLift outperforms state-of-the-art methods in 3D head reconstruction, highlighting its practical applicability and robust performance on real-world images. In addition to single image reconstruction, FaceLift supports video inputs for 4D novel view synthesis and seamlessly integrates with 2D reanimation techniques to enable 3D facial animation. Project page: https://weijielyu.github.io/FaceLift.
- Abstract(参考訳): 単一画像からの高速で高品質な360度頭部再構成のためのフィードフォワードアプローチであるFaceLiftを提案する。
我々のパイプラインは、単一の顔入力から頭部の一貫した側面と背面のビューを生成する多視点潜時拡散モデルを用いて開始する。
生成されたビューはGS-LRMコンストラクタへの入力として機能し、ガウススプラットを用いて包括的な3D表現を生成する。
そこで本研究では,合成3次元頭部アセットを用いたマルチビューレンダリングのデータセットを開発した。
拡散型マルチビュージェネレータは合成頭部画像のみに訓練され、GS-LRMコンストラクタはObjaverseの初期訓練を行い、次いで合成頭部データを微調整する。
FaceLiftは、アイデンティティの保存とビュー間のビュー一貫性の維持に優れています。
FaceLiftは、合成データのみに訓練されているにもかかわらず、実世界の画像への顕著な一般化を実証している。
定性的かつ定量的な評価により,FaceLiftは3次元頭部再構成における最先端の手法よりも優れており,実世界の画像に対する実用性やロバスト性を強調している。
単一画像再構成に加えて、FaceLiftは4Dノベルビュー合成のためのビデオ入力をサポートし、シームレスに2Dリアニメーション技術と統合して3D顔アニメーションを可能にする。
プロジェクトページ: https://weijielyu.github.io/FaceLift.com
関連論文リスト
- Single Image, Any Face: Generalisable 3D Face Generation [59.9369171926757]
我々は,制約のない単一画像入力を伴う3次元顔を生成する新しいモデルGen3D-Faceを提案する。
私たちの知る限りでは、これは1枚の画像からフォトリアリスティックな3D顔アバターを作るための最初の試みであり、ベンチマークである。
論文 参考訳(メタデータ) (2024-09-25T14:56:37Z) - G3FA: Geometry-guided GAN for Face Animation [14.488117084637631]
この制限に対処するために、顔アニメーション(G3FA)のための幾何学誘導型GANを導入する。
我々の新しいアプローチは、顔アニメーションモデルに2次元画像のみを用いて3次元情報を組み込むことを可能にした。
顔の再現モデルでは、動きのダイナミクスを捉えるために2次元の運動ワープを利用する。
論文 参考訳(メタデータ) (2024-08-23T13:13:24Z) - FitDiff: Robust monocular 3D facial shape and reflectance estimation using Diffusion Models [79.65289816077629]
拡散型3次元顔アバター生成モデルFitDiffを提案する。
本モデルでは,「近距離」2次元顔画像から抽出したアイデンティティ埋め込みを利用して,再現性のある顔アバターを高精度に生成する。
FitDiffは、顔認識の埋め込みを前提とした最初の3D LDMであり、一般的なレンダリングエンジンで使用可能な、ライティング可能な人間のアバターを再構築する。
論文 参考訳(メタデータ) (2023-12-07T17:35:49Z) - SiTH: Single-view Textured Human Reconstruction with Image-Conditioned Diffusion [35.73448283467723]
SiTHは、イメージ条件付き拡散モデルと3Dメッシュ再構築ワークフローを統合する、新しいパイプラインである。
我々は、入力画像に基づいて、見えないバックビューの外観を幻覚させるために、強力な生成拡散モデルを用いる。
後者では,入力画像とバックビュー画像から全身のテクスチャメッシュを復元するためのガイダンスとして,肌付きボディーメッシュを利用する。
論文 参考訳(メタデータ) (2023-11-27T14:22:07Z) - PanoHead: Geometry-Aware 3D Full-Head Synthesis in 360$^{\circ}$ [17.355141949293852]
3次元頭部合成のための既存の3次元生成対向ネットワーク(GAN)は、正面近傍のビューに限られるか、大きなビュー角で3次元の一貫性を維持するのが困難である。
パノヘッド(PanoHead)は、360ドル(約3万3000円)で高画質のフルヘッド画像合成を可能にする最初の3D認識生成モデルである。
論文 参考訳(メタデータ) (2023-03-23T06:54:34Z) - Free-HeadGAN: Neural Talking Head Synthesis with Explicit Gaze Control [54.079327030892244]
Free-HeadGANは、人為的なニューラルトーキングヘッド合成システムである。
本研究では,3次元顔のランドマークが不足している顔のモデリングが,最先端の生成性能を達成するのに十分であることを示す。
論文 参考訳(メタデータ) (2022-08-03T16:46:08Z) - Image-to-Video Generation via 3D Facial Dynamics [78.01476554323179]
静止画像から様々な映像を生成するために多目的モデルであるFaceAnimeを提案する。
私たちのモデルは、顔ビデオや顔ビデオの予測など、さまざまなAR/VRやエンターテイメントアプリケーションに汎用的です。
論文 参考訳(メタデータ) (2021-05-31T02:30:11Z) - Fast-GANFIT: Generative Adversarial Network for High Fidelity 3D Face
Reconstruction [76.1612334630256]
我々は、GAN(Generative Adversarial Networks)とDCNN(Deep Convolutional Neural Networks)の力を利用して、単一画像から顔のテクスチャと形状を再構築する。
3次元顔再構成を保存したフォトリアリスティックでアイデンティティに優れた結果を示し, 初めて, 高精度な顔テクスチャ再構成を実現する。
論文 参考訳(メタデータ) (2021-05-16T16:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。