論文の概要: HumanNorm: Learning Normal Diffusion Model for High-quality and
Realistic 3D Human Generation
- arxiv url: http://arxiv.org/abs/2310.01406v2
- Date: Wed, 29 Nov 2023 16:23:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 03:27:03.247189
- Title: HumanNorm: Learning Normal Diffusion Model for High-quality and
Realistic 3D Human Generation
- Title(参考訳): humannorm: 高品質かつ現実的な3d生成のための正規拡散モデル
- Authors: Xin Huang, Ruizhi Shao, Qi Zhang, Hongwen Zhang, Ying Feng, Yebin Liu,
Qing Wang
- Abstract要約: 我々は,高品質でリアルな3Dヒューマンジェネレーションのための新しいアプローチであるHumanNormを提案する。
モデルの主な考え方は、正規適応拡散モデルと正規整合拡散モデルを学ぶことによって、3次元幾何学の2次元知覚を強化することである。
HumanNormは、テクスチャとテクスチャの質の両方において、既存のテキストから3Dメソッドよりも優れています。
- 参考スコア(独自算出の注目度): 41.82589219009301
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent text-to-3D methods employing diffusion models have made significant
advancements in 3D human generation. However, these approaches face challenges
due to the limitations of text-to-image diffusion models, which lack an
understanding of 3D structures. Consequently, these methods struggle to achieve
high-quality human generation, resulting in smooth geometry and cartoon-like
appearances. In this paper, we propose HumanNorm, a novel approach for
high-quality and realistic 3D human generation. The main idea is to enhance the
model's 2D perception of 3D geometry by learning a normal-adapted diffusion
model and a normal-aligned diffusion model. The normal-adapted diffusion model
can generate high-fidelity normal maps corresponding to user prompts with
view-dependent and body-aware text. The normal-aligned diffusion model learns
to generate color images aligned with the normal maps, thereby transforming
physical geometry details into realistic appearance. Leveraging the proposed
normal diffusion model, we devise a progressive geometry generation strategy
and a multi-step Score Distillation Sampling (SDS) loss to enhance the
performance of 3D human generation. Comprehensive experiments substantiate
HumanNorm's ability to generate 3D humans with intricate geometry and realistic
appearances. HumanNorm outperforms existing text-to-3D methods in both geometry
and texture quality. The project page of HumanNorm is
https://humannorm.github.io/.
- Abstract(参考訳): 拡散モデルを用いた最近のテキスト・ツー・3D法は, 人間の3次元生成に大きな進歩をもたらした。
しかし、これらのアプローチは3d構造の理解を欠いたテキストから画像への拡散モデルの制限のため、課題に直面している。
その結果、これらの手法は高品質な人間生成を達成するのに苦労し、滑らかな幾何学や漫画のような外観をもたらす。
本稿では,高品質かつ現実的な3d生成のための新しいアプローチであるhumannormを提案する。
主なアイデアは、正規適応拡散モデルと正規アライメント拡散モデルを学習することにより、モデルの3次元形状の2次元知覚を強化することである。
正規適応拡散モデルは、ビュー依存およびボディアウェアテキストによるユーザのプロンプトに対応する高忠実度正規マップを生成することができる。
正規配向拡散モデルは、通常の地図に沿った色画像を生成することを学習し、物理的幾何学的詳細を現実的な外観に変換する。
提案する正規拡散モデルを利用して, プログレッシブな幾何生成戦略と多段階スコア蒸留サンプリング(sds)損失を考案し, 3次元人間の生成性能を向上させる。
包括的実験により、人間ノルムは複雑な形状とリアルな外観を持つ3d人間を生成できる。
HumanNormは、テクスチャとテクスチャの質の両方において、既存のテキストから3Dメソッドよりも優れています。
HumanNormのプロジェクトページはhttps://humannorm.github.io/。
関連論文リスト
- CAD: Photorealistic 3D Generation via Adversarial Distillation [28.07049413820128]
本稿では,事前学習した拡散モデルを用いた3次元合成のための新しい学習パラダイムを提案する。
提案手法は,1つの画像に条件付された高忠実かつ光リアルな3Dコンテンツの生成を解放し,プロンプトを行う。
論文 参考訳(メタデータ) (2023-12-11T18:59:58Z) - HumanRef: Single Image to 3D Human Generation via Reference-Guided
Diffusion [53.1558345421646]
単一ビュー入力から3次元のヒューマン生成フレームワークであるHumanRefを提案する。
生成した3Dモデルが入力画像と光写実的に整合していることを保証するため、HumanRefは参照誘導スコア蒸留サンプリングと呼ばれる新しい手法を導入した。
実験結果から,HumanRefは3D衣服を製作する上で,最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-11-28T17:06:28Z) - RichDreamer: A Generalizable Normal-Depth Diffusion Model for Detail
Richness in Text-to-3D [31.77212284992657]
我々は3次元生成のための一般化可能な正規-深度拡散モデルを学ぶ。
アルベド拡散モデルを導入し、アルベド成分にデータ駆動的制約を課す。
実験の結果,既存のテキスト・ツー・3Dパイプラインに組み込むと,モデルのリッチさが著しく向上することがわかった。
論文 参考訳(メタデータ) (2023-11-28T16:22:33Z) - PaintHuman: Towards High-fidelity Text-to-3D Human Texturing via
Denoised Score Distillation [89.09455618184239]
テキスト・ツー・3D世代における最近の進歩は画期的なものである。
そこで我々はPaintHumanというモデルを提案し,その課題を2つの側面から解決する。
奥行きマップを手引きとして,現実的なセマンティックなテクスチャの整合性を保証する。
論文 参考訳(メタデータ) (2023-10-14T00:37:16Z) - EfficientDreamer: High-Fidelity and Robust 3D Creation via Orthogonal-view Diffusion Prior [59.25950280610409]
直交ビュー画像誘導を利用した高画質な3Dコンテンツ生成パイプラインを提案する。
本稿では,与えられたテキストプロンプトに基づいて4つのサブイメージからなる画像を生成する2次元拡散モデルを提案する。
また,生成した3Dコンテンツの詳細をさらに改善する3D合成ネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-25T07:39:26Z) - HumanLiff: Layer-wise 3D Human Generation with Diffusion Model [55.891036415316876]
既存の3D生成モデルは、主に1回のパスで、検出不能な3Dモデルとして、着物付き3D人間を生成する。
拡散過程を統一した第1層の3次元人間生成モデルであるHumanLiffを提案する。
論文 参考訳(メタデータ) (2023-08-18T17:59:04Z) - ZeroAvatar: Zero-shot 3D Avatar Generation from a Single Image [17.285152757066527]
最適化プロセスに先立って3次元人体を明示的に導入する手法であるZeroAvatarを提案する。
我々は,ZeroAvatarが最適化に基づく3次元アバター生成の堅牢性と3次元一貫性を著しく向上することを示す。
論文 参考訳(メタデータ) (2023-05-25T18:23:20Z) - DreamFusion: Text-to-3D using 2D Diffusion [52.52529213936283]
テキストと画像の合成の最近の進歩は、何十億もの画像と画像のペアで訓練された拡散モデルによって引き起こされている。
本研究では,事前訓練された2次元テキスト・ツー・イメージ拡散モデルを用いてテキスト・ツー・3次元合成を行うことにより,これらの制約を回避する。
提案手法では,3次元トレーニングデータや画像拡散モデルの変更は必要とせず,事前訓練した画像拡散モデルの有効性を実証する。
論文 参考訳(メタデータ) (2022-09-29T17:50:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。