論文の概要: PaintHuman: Towards High-fidelity Text-to-3D Human Texturing via
Denoised Score Distillation
- arxiv url: http://arxiv.org/abs/2310.09458v1
- Date: Sat, 14 Oct 2023 00:37:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 20:24:29.845620
- Title: PaintHuman: Towards High-fidelity Text-to-3D Human Texturing via
Denoised Score Distillation
- Title(参考訳): PaintHuman:Denoized Score蒸留による高忠実テキストから3次元ヒューマンテクスチャを目指して
- Authors: Jianhui Yu, Hao Zhu, Liming Jiang, Chen Change Loy, Weidong Cai, Wayne
Wu
- Abstract要約: テキスト・ツー・3D世代における最近の進歩は画期的なものである。
そこで我々はPaintHumanというモデルを提案し,その課題を2つの側面から解決する。
奥行きマップを手引きとして,現実的なセマンティックなテクスチャの整合性を保証する。
- 参考スコア(独自算出の注目度): 89.09455618184239
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in zero-shot text-to-3D human generation, which employ the
human model prior (eg, SMPL) or Score Distillation Sampling (SDS) with
pre-trained text-to-image diffusion models, have been groundbreaking. However,
SDS may provide inaccurate gradient directions under the weak diffusion
guidance, as it tends to produce over-smoothed results and generate body
textures that are inconsistent with the detailed mesh geometry. Therefore,
directly leverage existing strategies for high-fidelity text-to-3D human
texturing is challenging. In this work, we propose a model called PaintHuman to
addresses the challenges from two aspects. We first propose a novel score
function, Denoised Score Distillation (DSD), which directly modifies the SDS by
introducing negative gradient components to iteratively correct the gradient
direction and generate high-quality textures. In addition, we use the depth map
as a geometric guidance to ensure the texture is semantically aligned to human
mesh surfaces. To guarantee the quality of rendered results, we employ
geometry-aware networks to predict surface materials and render realistic human
textures. Extensive experiments, benchmarked against state-of-the-art methods,
validate the efficacy of our approach.
- Abstract(参考訳): 事前学習されたテキストから画像への拡散モデルを用いたヒトモデルpre(smpl)またはスコア蒸留サンプリング(sds)を用いたゼロショットテキストから3次元ヒト世代における最近の進歩は画期的である。
しかしながら、SDSは、過度に平滑な結果を生成し、詳細なメッシュ形状と矛盾する身体テクスチャを生成する傾向があるため、弱い拡散誘導の下で不正確な勾配方向を提供することができる。
したがって、高忠実度テキストから3dテキストへの既存の戦略を直接活用することは困難である。
そこで本研究では,painthumanというモデルを提案し,その課題を2つの側面から解決する。
まず, 負の勾配成分を導入して, 傾斜方向を反復的に補正し, 高品質なテクスチャを生成することによって, SDSを直接修正する新しいスコア関数Denoized Score Distillation (DSD)を提案する。
さらに,テクスチャが人間のメッシュ表面とセマンティックに整合していることを確認するため,幾何学的ガイダンスとして深度マップを用いる。
レンダリング結果の品質を保証するため,我々は幾何学的認識ネットワークを用いて表面物質を予測し,リアルな人間のテクスチャを描画する。
最先端の手法に対してベンチマークを行い,提案手法の有効性を検証した。
関連論文リスト
- Semantic Human Mesh Reconstruction with Textures [43.03509017865438]
SHERTは、セマンティックなヒューマンメッシュをテクスチャと高精度で再構築する、新しいパイプラインである。
再構成メッシュには、安定した紫外線アンラッピング、高品質なトライアングルメッシュ、一貫性のあるセマンティック情報がある。
論文 参考訳(メタデータ) (2024-03-05T00:34:05Z) - NeuSD: Surface Completion with Multi-View Text-to-Image Diffusion [56.98287481620215]
本稿では,対象物の一部のみを捉えた複数の画像から3次元表面再構成を行う手法を提案する。
提案手法は, 表面の可視部分の再構成に神経放射場を用いた表面再構成法と, SDS (Score Distillation Sampling) 方式で事前学習した2次元拡散モデルを用いて, 可観測領域の形状を再現する手法である。
論文 参考訳(メタデータ) (2023-12-07T19:30:55Z) - StableDreamer: Taming Noisy Score Distillation Sampling for Text-to-3D [88.66678730537777]
本稿では3つの進歩を取り入れた方法論であるStableDreamerを紹介する。
まず、SDS生成前の等価性と、簡単な教師付きL2再構成損失を定式化する。
第2に,画像空間拡散は幾何学的精度に寄与するが,色調の鮮明化には潜時空間拡散が不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-02T02:27:58Z) - ConTex-Human: Free-View Rendering of Human from a Single Image with
Texture-Consistent Synthesis [49.28239918969784]
テクスチャに一貫性のあるバックビュー合成モジュールを導入し、参照画像コンテンツをバックビューに転送する。
また、テクスチャマッピングとリファインメントのための可視性対応パッチ整合性正規化と、合成したバックビューテクスチャの組み合わせを提案する。
論文 参考訳(メタデータ) (2023-11-28T13:55:53Z) - EucliDreamer: Fast and High-Quality Texturing for 3D Models with Stable Diffusion Depth [5.158983929861116]
テキストプロンプトと3Dメッシュが与えられた3次元モデルのテクスチャを生成する新しい手法を提案する。
追加の深度情報を考慮し、スコア蒸留サンプリング(SDS)プロセスを実行する。
論文 参考訳(メタデータ) (2023-11-27T06:55:53Z) - HumanNorm: Learning Normal Diffusion Model for High-quality and
Realistic 3D Human Generation [41.82589219009301]
我々は,高品質でリアルな3Dヒューマンジェネレーションのための新しいアプローチであるHumanNormを提案する。
モデルの主な考え方は、正規適応拡散モデルと正規整合拡散モデルを学ぶことによって、3次元幾何学の2次元知覚を強化することである。
HumanNormは、テクスチャとテクスチャの質の両方において、既存のテキストから3Dメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-10-02T17:59:17Z) - 3D Human Texture Estimation from a Single Image with Transformers [106.6320286821364]
単一画像からの3次元人間のテクスチャ推定のためのトランスフォーマーベースのフレームワークを提案する。
また,RGBモデルとテクスチャフローモデルを組み合わせたマスク融合方式を提案する。
論文 参考訳(メタデータ) (2021-09-06T16:00:20Z) - 3D Dense Geometry-Guided Facial Expression Synthesis by Adversarial
Learning [54.24887282693925]
本稿では,3次元密度(深度,表面正規度)情報を表現操作に用いる新しいフレームワークを提案する。
既製の最先端3D再構成モデルを用いて深度を推定し,大規模RGB-Depthデータセットを作成する。
実験により,提案手法は競争ベースラインと既存の芸術を大きなマージンで上回ることを示した。
論文 参考訳(メタデータ) (2020-09-30T17:12:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。