論文の概要: Articulated 3D Head Avatar Generation using Text-to-Image Diffusion
Models
- arxiv url: http://arxiv.org/abs/2307.04859v1
- Date: Mon, 10 Jul 2023 19:15:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-12 17:10:10.523584
- Title: Articulated 3D Head Avatar Generation using Text-to-Image Diffusion
Models
- Title(参考訳): テキスト・画像拡散モデルを用いたArticulated 3D Head Avatar生成
- Authors: Alexander W. Bergman, Wang Yifan, Gordon Wetzstein
- Abstract要約: 多様な頭部アバターを合成する能力は、拡張現実、撮影、教育など、多くの応用に不可欠である。
テキスト誘導型3Dオブジェクト生成に関する最近の研究は、これらのニーズに対処する上で大きな可能性を秘めている。
拡散に基づく頭部アバターは,この課題に対する最先端のアプローチよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 107.84324544272481
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to generate diverse 3D articulated head avatars is vital to a
plethora of applications, including augmented reality, cinematography, and
education. Recent work on text-guided 3D object generation has shown great
promise in addressing these needs. These methods directly leverage pre-trained
2D text-to-image diffusion models to generate 3D-multi-view-consistent radiance
fields of generic objects. However, due to the lack of geometry and texture
priors, these methods have limited control over the generated 3D objects,
making it difficult to operate inside a specific domain, e.g., human heads. In
this work, we develop a new approach to text-guided 3D head avatar generation
to address this limitation. Our framework directly operates on the geometry and
texture of an articulable 3D morphable model (3DMM) of a head, and introduces
novel optimization procedures to update the geometry and texture while keeping
the 2D and 3D facial features aligned. The result is a 3D head avatar that is
consistent with the text description and can be readily articulated using the
deformation model of the 3DMM. We show that our diffusion-based articulated
head avatars outperform state-of-the-art approaches for this task. The latter
are typically based on CLIP, which is known to provide limited diversity of
generation and accuracy for 3D object generation.
- Abstract(参考訳): 多様な3d関節のアバターを生成する能力は、拡張現実、シネマトグラフィー、教育など多くの応用に不可欠である。
テキスト誘導型3Dオブジェクト生成に関する最近の研究は、これらのニーズに対処する上で大きな可能性を秘めている。
これらの手法は、事前訓練された2次元テキストから画像への拡散モデルを直接活用し、ジェネリックオブジェクトの3dマルチビュー整合放射場を生成する。
しかし、幾何学やテクスチャの先行性が欠如しているため、これらの手法は生成された3Dオブジェクトを限定的に制御できるため、例えば人間の頭部のような特定の領域内での操作が困難になる。
本研究では,テキスト誘導3d頭部アバター生成に対する新しいアプローチを開発し,この制限に対処した。
本フレームワークは,頭部の3次元形状モデル(3DMM)の形状とテクスチャを直接操作し,2次元と3次元の顔の特徴を整列させながら形状とテクスチャを更新する新しい最適化手法を提案する。
その結果、テキスト記述と整合し、3dmmの変形モデルを用いて容易に調音できる3d頭部アバターが得られる。
拡散に基づく頭部アバターは,この課題に対する最先端のアプローチよりも優れていることを示す。
後者は典型的にはクリップに基づいており、3dオブジェクト生成の多様性と精度が限られていることが知られている。
関連論文リスト
- Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - En3D: An Enhanced Generative Model for Sculpting 3D Humans from 2D
Synthetic Data [36.51674664590734]
本研究では,高品質な3次元アバターの小型化を図ったEn3Dを提案する。
従来の3Dデータセットの不足や、視角が不均衡な限られた2Dコレクションと異なり、本研究の目的は、ゼロショットで3D人間を作れる3Dの開発である。
論文 参考訳(メタデータ) (2024-01-02T12:06:31Z) - HeadSculpt: Crafting 3D Head Avatars with Text [143.14548696613886]
テキストプロンプトから3Dヘッドアバターを作るために,HeadSculptという多用途パイプラインを導入した。
まずランドマークに基づく制御と学習されたテキスト埋め込みを活用することで,3次元認識による拡散モデルを構築した。
テクスチャメッシュを高分解能な微分可能なレンダリング技術で最適化するための,新しいアイデンティティ対応編集スコア蒸留手法を提案する。
論文 参考訳(メタデータ) (2023-06-05T16:53:58Z) - AG3D: Learning to Generate 3D Avatars from 2D Image Collections [96.28021214088746]
本稿では,2次元画像から現実的な3次元人物の新たな逆生成モデルを提案する。
本手法は, 全身型3Dジェネレータを用いて, 体の形状と変形を捉える。
提案手法は, 従来の3次元・調音認識手法よりも幾何的, 外観的に優れていた。
論文 参考訳(メタデータ) (2023-05-03T17:56:24Z) - DreamAvatar: Text-and-Shape Guided 3D Human Avatar Generation via
Diffusion Models [55.71306021041785]
高品質な3Dアバターを作成するためのテキスト・アンド・シェイプ・ガイドフレームワークであるDreamAvatarについて紹介する。
SMPLモデルを利用して、生成のための形状とポーズのガイダンスを提供する。
また、全体とズームインした3Dヘッドから計算した損失を共同で最適化し、一般的なマルチフェイス「Janus」問題を緩和する。
論文 参考訳(メタデータ) (2023-04-03T12:11:51Z) - Next3D: Generative Neural Texture Rasterization for 3D-Aware Head
Avatars [36.4402388864691]
3D-Aware Generative Adversarial Network (GANs) は, 単一視点2D画像のコレクションのみを用いて, 高忠実かつ多視点の顔画像を合成する。
最近の研究は、3D Morphable Face Model (3DMM) を用いて、生成放射場における変形を明示的または暗黙的に記述している。
本研究では,非構造化2次元画像から生成的,高品質,かつ3D一貫性のある顔アバターの教師なし学習のための新しい3D GANフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-21T06:40:46Z) - DRaCoN -- Differentiable Rasterization Conditioned Neural Radiance
Fields for Articulated Avatars [92.37436369781692]
フルボディの体積アバターを学習するためのフレームワークであるDRaCoNを提案する。
2Dと3Dのニューラルレンダリング技術の利点を利用する。
挑戦的なZJU-MoCapとHuman3.6Mデータセットの実験は、DRaCoNが最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2022-03-29T17:59:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。