論文の概要: Dual Diffusion Models for Multi-modal Guided 3D Avatar Generation
- arxiv url: http://arxiv.org/abs/2603.04307v1
- Date: Wed, 04 Mar 2026 17:24:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.423794
- Title: Dual Diffusion Models for Multi-modal Guided 3D Avatar Generation
- Title(参考訳): マルチモーダル誘導型3次元アバター生成のための二重拡散モデル
- Authors: Hong Li, Yutang Feng, Minqi Meng, Yichen Yang, Xuhui Liu, Baochang Zhang,
- Abstract要約: テキストや画像のプロンプトから高忠実度3Dアバターを生成するためのフレームワークであるPromptAvatarを提案する。
マルチモーダルプロンプトから3D表現への直接マッピングを学習し、高忠実でシェーディングフリーな3Dアバターを10秒で生成することに成功した。
提案手法は, 生成品質, 細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細
- 参考スコア(独自算出の注目度): 19.94446175293186
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Generating high-fidelity 3D avatars from text or image prompts is highly sought after in virtual reality and human-computer interaction. However, existing text-driven methods often rely on iterative Score Distillation Sampling (SDS) or CLIP optimization, which struggle with fine-grained semantic control and suffer from excessively slow inference. Meanwhile, image-driven approaches are severely bottlenecked by the scarcity and high acquisition cost of high-quality 3D facial scans, limiting model generalization. To address these challenges, we first construct a novel, large-scale dataset comprising over 100,000 pairs across four modalities: fine-grained textual descriptions, in-the-wild face images, high-quality light-normalized texture UV maps, and 3D geometric shapes. Leveraging this comprehensive dataset, we propose PromptAvatar, a framework featuring dual diffusion models. Specifically, it integrates a Texture Diffusion Model (TDM) that supports flexible multi-condition guidance from text and/or image prompts, alongside a Geometry Diffusion Model (GDM) guided by text prompts. By learning the direct mapping from multi-modal prompts to 3D representations, PromptAvatar eliminates the need for time-consuming iterative optimization, successfully generating high-fidelity, shading-free 3D avatars in under 10 seconds. Extensive quantitative and qualitative experiments demonstrate that our method significantly outperforms existing state-of-the-art approaches in generation quality, fine-grained detail alignment, and computational efficiency.
- Abstract(参考訳): テキストや画像のプロンプトから高忠実度な3Dアバターを生成することは、仮想現実や人間とコンピュータのインタラクションにおいて非常に求められている。
しかし、既存のテキスト駆動方式は、しばしば反復的なスコア蒸留サンプリング(SDS)やCLIP最適化に頼っている。
一方、画像駆動型アプローチは、高品質な3D顔スキャンの不足と高い取得コストによって著しくボトルネックを受け、モデルの一般化が制限される。
これらの課題に対処するために、我々はまず、細粒度テキスト記述、幅内顔画像、高品質な光正規化テクスチャUVマップ、3次元幾何学形状の4つのモードで10万組を超える新しい大規模データセットを構築した。
この包括的データセットを活用することで、二重拡散モデルを備えたフレームワークであるPromptAvatarを提案する。
具体的には、テキストプロンプトおよび/または画像プロンプトからの柔軟なマルチ条件ガイダンスをサポートするTexture Diffusion Model(TDM)と、テキストプロンプトによってガイドされるGeometry Diffusion Model(GDM)を統合する。
マルチモーダルプロンプトから3D表現への直接マッピングを学習することにより、PromptAvatarは時間を要する反復最適化の必要性を排除し、高忠実でシェーディングフリーな3Dアバターを10秒以内で生成する。
大規模定量的および定性的実験により,本手法は生成品質,細粒度細かな細部アライメント,計算効率において,既存の最先端手法を著しく上回ることを示した。
関連論文リスト
- Wonder3D++: Cross-domain Diffusion for High-fidelity 3D Generation from a Single Image [68.55613894952177]
単一ビュー画像から高忠実なテクスチャメッシュを効率的に生成する新しい手法である textbfWonder3D++ を導入する。
マルチビュー正規写像と対応するカラー画像を生成するクロスドメイン拡散モデルを提案する。
最後に,多視点2次元表現から高品質な表面を粗い方法でわずか3ドル程度で駆動するカスケード3次元メッシュ抽出アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-11-03T17:24:18Z) - Bootstrap3D: Improving Multi-view Diffusion Model with Synthetic Data [80.92268916571712]
重要なボトルネックは、詳細なキャプションを持つ高品質な3Dオブジェクトの不足である。
本稿では,任意の量のマルチビュー画像を自動的に生成する新しいフレームワークBootstrap3Dを提案する。
我々は高画質合成多視点画像100万枚を高密度記述キャプションで生成した。
論文 参考訳(メタデータ) (2024-05-31T17:59:56Z) - Grounded Compositional and Diverse Text-to-3D with Pretrained Multi-View Diffusion Model [65.58911408026748]
複雑な合成文のプロンプトを正確に追従できる3Dアセットを生成するために,グラウンドド・ドレーマーを提案する。
まず,テキスト・ツー・3Dパイプラインのボトルネックとして,テキスト誘導4視点画像の活用を提唱する。
次に,テキストアラインな4ビュー画像生成を促すための注意再焦点機構を導入する。
論文 参考訳(メタデータ) (2024-04-28T04:05:10Z) - IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。
我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。
組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文 参考訳(メタデータ) (2023-08-22T14:39:17Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - StyleAvatar3D: Leveraging Image-Text Diffusion Models for High-Fidelity
3D Avatar Generation [103.88928334431786]
高品質な3Dアバターを製作するための新しい手法を提案する。
データ生成には事前学習した画像テキスト拡散モデルとGANベースの3次元生成ネットワークを用いて訓練を行う。
提案手法は、生産されたアバターの視覚的品質と多様性の観点から、現在の最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-30T13:09:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。