論文の概要: HumanNorm: Learning Normal Diffusion Model for High-quality and
Realistic 3D Human Generation
- arxiv url: http://arxiv.org/abs/2310.01406v1
- Date: Mon, 2 Oct 2023 17:59:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 20:21:47.887705
- Title: HumanNorm: Learning Normal Diffusion Model for High-quality and
Realistic 3D Human Generation
- Title(参考訳): humannorm: 高品質かつ現実的な3d生成のための正規拡散モデル
- Authors: Xin Huang, Ruizhi Shao, Qi Zhang, Hongwen Zhang, Ying Feng, Yebin Liu,
Qing Wang
- Abstract要約: 我々は,高品質でリアルな3Dヒューマンジェネレーションのための新しいアプローチであるHumanNormを提案する。
正規適応拡散モデルと正規適応拡散モデルを含む正規拡散モデルを学習する。
包括的実験は、複雑な幾何学と現実的な外観を持つ3D人間を生成する方法の能力を裏付けるものである。
- 参考スコア(独自算出の注目度): 41.82589219009301
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent text-to-3D methods employing diffusion models have made significant
advancements in 3D human generation. However, these approaches face challenges
due to the limitations of the text-to-image diffusion model, which lacks an
understanding of 3D structures. Consequently, these methods struggle to achieve
high-quality human generation, resulting in smooth geometry and cartoon-like
appearances. In this paper, we observed that fine-tuning text-to-image
diffusion models with normal maps enables their adaptation into text-to-normal
diffusion models, which enhances the 2D perception of 3D geometry while
preserving the priors learned from large-scale datasets. Therefore, we propose
HumanNorm, a novel approach for high-quality and realistic 3D human generation
by learning the normal diffusion model including a normal-adapted diffusion
model and a normal-aligned diffusion model. The normal-adapted diffusion model
can generate high-fidelity normal maps corresponding to prompts with
view-dependent text. The normal-aligned diffusion model learns to generate
color images aligned with the normal maps, thereby transforming physical
geometry details into realistic appearance. Leveraging the proposed normal
diffusion model, we devise a progressive geometry generation strategy and
coarse-to-fine texture generation strategy to enhance the efficiency and
robustness of 3D human generation. Comprehensive experiments substantiate our
method's ability to generate 3D humans with intricate geometry and realistic
appearances, significantly outperforming existing text-to-3D methods in both
geometry and texture quality. The project page of HumanNorm is
https://humannorm.github.io/.
- Abstract(参考訳): 拡散モデルを用いた最近のテキスト・ツー・3D法は, 人間の3次元生成に大きな進歩をもたらした。
しかし,これらの手法は3次元構造の理解に欠けるテキスト・画像拡散モデルの限界により,課題に直面している。
その結果、これらの手法は高品質な人間生成を達成するのに苦労し、滑らかな幾何学や漫画のような外観をもたらす。
本稿では,通常の地図を用いた微調整テキスト・画像拡散モデルにより,テキスト・画像拡散モデルへの適応が可能となり,大規模データセットから学習した先行データを保存しつつ,3次元幾何学の2次元認識が向上することを示した。
そこで我々は, 正規適応拡散モデルと正規適応拡散モデルを含む正規拡散モデルを学習し, 高品質でリアルな3次元人文生成手法であるHumanNormを提案する。
正規適応拡散モデルは、ビュー依存テキストのプロンプトに対応する高忠実度正規写像を生成することができる。
正規配向拡散モデルは、通常の地図に沿った色画像を生成することを学習し、物理的幾何学的詳細を現実的な外観に変換する。
提案する正規拡散モデルを用いて, 3次元人体生成の効率とロバスト性を高めるために, プログレッシブな幾何生成戦略と粗粒間テクスチャ生成戦略を考案する。
包括的実験により,複雑な形状とリアルな外観を持つ3次元人間を生成できることが,既存のテクスト・トゥ・3d法を幾何とテクスチャ品質の両方において著しく上回っている。
HumanNormのプロジェクトページはhttps://humannorm.github.io/。
関連論文リスト
- CAD: Photorealistic 3D Generation via Adversarial Distillation [28.07049413820128]
本稿では,事前学習した拡散モデルを用いた3次元合成のための新しい学習パラダイムを提案する。
提案手法は,1つの画像に条件付された高忠実かつ光リアルな3Dコンテンツの生成を解放し,プロンプトを行う。
論文 参考訳(メタデータ) (2023-12-11T18:59:58Z) - HumanRef: Single Image to 3D Human Generation via Reference-Guided
Diffusion [53.1558345421646]
単一ビュー入力から3次元のヒューマン生成フレームワークであるHumanRefを提案する。
生成した3Dモデルが入力画像と光写実的に整合していることを保証するため、HumanRefは参照誘導スコア蒸留サンプリングと呼ばれる新しい手法を導入した。
実験結果から,HumanRefは3D衣服を製作する上で,最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-11-28T17:06:28Z) - RichDreamer: A Generalizable Normal-Depth Diffusion Model for Detail
Richness in Text-to-3D [31.77212284992657]
我々は3次元生成のための一般化可能な正規-深度拡散モデルを学ぶ。
アルベド拡散モデルを導入し、アルベド成分にデータ駆動的制約を課す。
実験の結果,既存のテキスト・ツー・3Dパイプラインに組み込むと,モデルのリッチさが著しく向上することがわかった。
論文 参考訳(メタデータ) (2023-11-28T16:22:33Z) - PaintHuman: Towards High-fidelity Text-to-3D Human Texturing via
Denoised Score Distillation [89.09455618184239]
テキスト・ツー・3D世代における最近の進歩は画期的なものである。
そこで我々はPaintHumanというモデルを提案し,その課題を2つの側面から解決する。
奥行きマップを手引きとして,現実的なセマンティックなテクスチャの整合性を保証する。
論文 参考訳(メタデータ) (2023-10-14T00:37:16Z) - EfficientDreamer: High-Fidelity and Robust 3D Creation via Orthogonal-view Diffusion Prior [59.25950280610409]
直交ビュー画像誘導を利用した高画質な3Dコンテンツ生成パイプラインを提案する。
本稿では,与えられたテキストプロンプトに基づいて4つのサブイメージからなる画像を生成する2次元拡散モデルを提案する。
また,生成した3Dコンテンツの詳細をさらに改善する3D合成ネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-25T07:39:26Z) - HumanLiff: Layer-wise 3D Human Generation with Diffusion Model [55.891036415316876]
既存の3D生成モデルは、主に1回のパスで、検出不能な3Dモデルとして、着物付き3D人間を生成する。
拡散過程を統一した第1層の3次元人間生成モデルであるHumanLiffを提案する。
論文 参考訳(メタデータ) (2023-08-18T17:59:04Z) - ZeroAvatar: Zero-shot 3D Avatar Generation from a Single Image [17.285152757066527]
最適化プロセスに先立って3次元人体を明示的に導入する手法であるZeroAvatarを提案する。
我々は,ZeroAvatarが最適化に基づく3次元アバター生成の堅牢性と3次元一貫性を著しく向上することを示す。
論文 参考訳(メタデータ) (2023-05-25T18:23:20Z) - DreamFusion: Text-to-3D using 2D Diffusion [52.52529213936283]
テキストと画像の合成の最近の進歩は、何十億もの画像と画像のペアで訓練された拡散モデルによって引き起こされている。
本研究では,事前訓練された2次元テキスト・ツー・イメージ拡散モデルを用いてテキスト・ツー・3次元合成を行うことにより,これらの制約を回避する。
提案手法では,3次元トレーニングデータや画像拡散モデルの変更は必要とせず,事前訓練した画像拡散モデルの有効性を実証する。
論文 参考訳(メタデータ) (2022-09-29T17:50:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。