論文の概要: ID-Sculpt: ID-aware 3D Head Generation from Single In-the-wild Portrait Image
- arxiv url: http://arxiv.org/abs/2406.16710v3
- Date: Sun, 22 Dec 2024 05:16:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 19:21:30.889905
- Title: ID-Sculpt: ID-aware 3D Head Generation from Single In-the-wild Portrait Image
- Title(参考訳): ID-Sculpt:シングル・イン・ザ・ウィルド・ポートレート画像からのID対応3Dヘッド生成
- Authors: Jinkun Hao, Junshu Tang, Jiangning Zhang, Ran Yi, Yijia Hong, Moran Li, Weijian Cao, Yating Wang, Chengjie Wang, Lizhuang Ma,
- Abstract要約: 従来の3Dヘッド生成法はテキスト記述によって制限されており、画像ベースの手法は高品質なヘッドジオメトリを作成するのに苦労していた。
高品質な3Dヘッドを生成できる新しいフレームワークID-Sculptを提案する。
広汎な実験により、1枚の画像から正確な形状とテクスチャで高品質な3Dヘッドを生成できることが実証された。
- 参考スコア(独自算出の注目度): 57.46195661521239
- License:
- Abstract: While recent works have achieved great success on image-to-3D object generation, high quality and fidelity 3D head generation from a single image remains a great challenge. Previous text-based methods for generating 3D heads were limited by text descriptions and image-based methods struggled to produce high-quality head geometry. To handle this challenging problem, we propose a novel framework, ID-Sculpt, to generate high-quality 3D heads while preserving their identities. Our work incorporates the identity information of the portrait image into three parts: 1) geometry initialization, 2) geometry sculpting, and 3) texture generation stages. Given a reference portrait image, we first align the identity features with text features to realize ID-aware guidance enhancement, which contains the control signals representing the face information. We then use the canny map, ID features of the portrait image, and a pre-trained text-to-normal/depth diffusion model to generate ID-aware geometry supervision, and 3D-GAN inversion is employed to generate ID-aware geometry initialization. Furthermore, with the ability to inject identity information into 3D head generation, we use ID-aware guidance to calculate ID-aware Score Distillation (ISD) for geometry sculpting. For texture generation, we adopt the ID Consistent Texture Inpainting and Refinement which progressively expands the view for texture inpainting to obtain an initialization UV texture map. We then use the ID-aware guidance to provide image-level supervision for noisy multi-view images to obtain a refined texture map. Extensive experiments demonstrate that we can generate high-quality 3D heads with accurate geometry and texture from a single in-the-wild portrait image.
- Abstract(参考訳): 近年は画像から3Dオブジェクト生成において大きな成功を収めているが、高品質で忠実な3Dヘッド生成は依然として大きな課題である。
従来の3Dヘッド生成法はテキスト記述によって制限されており、画像ベースの手法は高品質なヘッドジオメトリを作成するのに苦労していた。
この課題に対処するために,ID-Sculpt という新しいフレームワークを提案し,それらのアイデンティティを保ちながら高品質な3Dヘッドを生成する。
私たちの作品では、肖像画の身元情報を3つにまとめています。
1) 幾何初期化。
2 幾何学彫刻、及び
3) テクスチャ生成段階。
まず,顔情報を表す制御信号を含むID認識誘導強調を実現するために,画像の特徴をテキストの特徴と整合させる。
次に、キャニーマップ、ポートレート画像のID特徴、および事前訓練されたテキスト-正規/深度拡散モデルを用いて、ID認識幾何監視を生成し、3D-GANインバージョンを用いて、ID認識幾何初期化を生成する。
さらに、3Dヘッド生成にID情報を注入する機能により、幾何彫刻のためのID認識スコア蒸留(ISD)を計算するためにID認識ガイダンスを使用する。
テクスチャ生成にはID Consistent Texture Inpainting and Refinementを採用する。
次に、ID認識ガイダンスを用いて、ノイズの多い多視点画像に対する画像レベルの監視を行い、洗練されたテクスチャマップを得る。
広汎な実験により、1枚の画像から正確な形状とテクスチャで高品質な3Dヘッドを生成できることが実証された。
関連論文リスト
- ID-to-3D: Expressive ID-guided 3D Heads via Score Distillation Sampling [96.87575334960258]
ID-to-3D(ID-to-3D)は、不整合表現を用いたIDとテキスト誘導型3次元頭部を生成する方法である。
前例のないアイデンティティ一貫性と高品質なテクスチャと幾何生成を実現する。
論文 参考訳(メタデータ) (2024-05-26T13:36:45Z) - Portrait3D: Text-Guided High-Quality 3D Portrait Generation Using Pyramid Representation and GANs Prior [21.18119394249007]
テキスト・ツー・3D画像生成に先立って,新しい幾何学的外観を持つニューラルレンダリングに基づく新しいフレームワークであるPortrait3Dを提案する。
実験の結果,Portrait3Dはプロンプトに合わせたリアルで高品質で標準的な3D肖像画を制作できることがわかった。
論文 参考訳(メタデータ) (2024-04-16T08:52:42Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - Articulated 3D Head Avatar Generation using Text-to-Image Diffusion
Models [107.84324544272481]
多様な頭部アバターを合成する能力は、拡張現実、撮影、教育など、多くの応用に不可欠である。
テキスト誘導型3Dオブジェクト生成に関する最近の研究は、これらのニーズに対処する上で大きな可能性を秘めている。
拡散に基づく頭部アバターは,この課題に対する最先端のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-10T19:15:32Z) - Self-Supervised Geometry-Aware Encoder for Style-Based 3D GAN Inversion [115.82306502822412]
StyleGANは、画像インバージョンと潜時編集による2次元顔再構成とセマンティック編集において大きな進歩を遂げている。
対応する汎用的な3D GANインバージョンフレームワークがまだ欠けており、3D顔再構成とセマンティック編集の応用が制限されている。
本研究では,その3次元形状と詳細なテクスチャを忠実に復元するために,単一の顔画像から潜伏コードを予測する3D GAN逆変換の課題について検討する。
論文 参考訳(メタデータ) (2022-12-14T18:49:50Z) - Fine Detailed Texture Learning for 3D Meshes with Generative Models [33.42114674602613]
本稿では,多視点画像と単視点画像の両方から高品質なテクスチャ3Dモデルを再構成する手法を提案する。
第1段階では正確な幾何学を学ぶことに集中し、第2段階では、生成的対向ネットワークを用いてテクスチャを学ぶことに集中する。
本手法は従来の手法に比べて優れた3次元テクスチャモデルを実現することを実証する。
論文 参考訳(メタデータ) (2022-03-17T14:50:52Z) - OSTeC: One-Shot Texture Completion [86.23018402732748]
ワンショット3D顔テクスチャ補完のための教師なしアプローチを提案する。
提案手法では,2次元フェースジェネレータで回転画像を再構成することにより,入力画像を3次元で回転させ,見えない領域を埋め込む。
完成したテクスチャーをジェネレーターに投影することで、ターゲットイメージを先取りします。
論文 参考訳(メタデータ) (2020-12-30T23:53:26Z) - Improved Modeling of 3D Shapes with Multi-view Depth Maps [48.8309897766904]
CNNを用いて3次元形状をモデル化するための汎用フレームワークを提案する。
オブジェクトの1つの深度画像だけで、3Dオブジェクトの高密度な多視点深度マップ表現を出力できる。
論文 参考訳(メタデータ) (2020-09-07T17:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。