論文の概要: PaintHuman: Towards High-fidelity Text-to-3D Human Texturing via
Denoised Score Distillation
- arxiv url: http://arxiv.org/abs/2310.09458v1
- Date: Sat, 14 Oct 2023 00:37:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 20:24:29.845620
- Title: PaintHuman: Towards High-fidelity Text-to-3D Human Texturing via
Denoised Score Distillation
- Title(参考訳): PaintHuman:Denoized Score蒸留による高忠実テキストから3次元ヒューマンテクスチャを目指して
- Authors: Jianhui Yu, Hao Zhu, Liming Jiang, Chen Change Loy, Weidong Cai, Wayne
Wu
- Abstract要約: テキスト・ツー・3D世代における最近の進歩は画期的なものである。
そこで我々はPaintHumanというモデルを提案し,その課題を2つの側面から解決する。
奥行きマップを手引きとして,現実的なセマンティックなテクスチャの整合性を保証する。
- 参考スコア(独自算出の注目度): 89.09455618184239
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in zero-shot text-to-3D human generation, which employ the
human model prior (eg, SMPL) or Score Distillation Sampling (SDS) with
pre-trained text-to-image diffusion models, have been groundbreaking. However,
SDS may provide inaccurate gradient directions under the weak diffusion
guidance, as it tends to produce over-smoothed results and generate body
textures that are inconsistent with the detailed mesh geometry. Therefore,
directly leverage existing strategies for high-fidelity text-to-3D human
texturing is challenging. In this work, we propose a model called PaintHuman to
addresses the challenges from two aspects. We first propose a novel score
function, Denoised Score Distillation (DSD), which directly modifies the SDS by
introducing negative gradient components to iteratively correct the gradient
direction and generate high-quality textures. In addition, we use the depth map
as a geometric guidance to ensure the texture is semantically aligned to human
mesh surfaces. To guarantee the quality of rendered results, we employ
geometry-aware networks to predict surface materials and render realistic human
textures. Extensive experiments, benchmarked against state-of-the-art methods,
validate the efficacy of our approach.
- Abstract(参考訳): 事前学習されたテキストから画像への拡散モデルを用いたヒトモデルpre(smpl)またはスコア蒸留サンプリング(sds)を用いたゼロショットテキストから3次元ヒト世代における最近の進歩は画期的である。
しかしながら、SDSは、過度に平滑な結果を生成し、詳細なメッシュ形状と矛盾する身体テクスチャを生成する傾向があるため、弱い拡散誘導の下で不正確な勾配方向を提供することができる。
したがって、高忠実度テキストから3dテキストへの既存の戦略を直接活用することは困難である。
そこで本研究では,painthumanというモデルを提案し,その課題を2つの側面から解決する。
まず, 負の勾配成分を導入して, 傾斜方向を反復的に補正し, 高品質なテクスチャを生成することによって, SDSを直接修正する新しいスコア関数Denoized Score Distillation (DSD)を提案する。
さらに,テクスチャが人間のメッシュ表面とセマンティックに整合していることを確認するため,幾何学的ガイダンスとして深度マップを用いる。
レンダリング結果の品質を保証するため,我々は幾何学的認識ネットワークを用いて表面物質を予測し,リアルな人間のテクスチャを描画する。
最先端の手法に対してベンチマークを行い,提案手法の有効性を検証した。
関連論文リスト
- DreamPolish: Domain Score Distillation With Progressive Geometry Generation [66.94803919328815]
本稿では,高精細な幾何学と高品質なテクスチャの創出に優れたテキスト・ツー・3D生成モデルであるDreamPolishを紹介する。
幾何構成フェーズでは, 合成過程の安定性を高めるために, 複数のニューラル表現を利用する。
テクスチャ生成フェーズでは、そのような領域に向けて神経表現を導くために、新しいスコア蒸留、すなわちドメインスコア蒸留(DSD)を導入する。
論文 参考訳(メタデータ) (2024-11-03T15:15:01Z) - FAMOUS: High-Fidelity Monocular 3D Human Digitization Using View Synthesis [51.193297565630886]
テクスチャを正確に推測することの難しさは、特に正面視画像の人物の背中のような不明瞭な領域に残る。
このテクスチャ予測の制限は、大規模で多様な3Dデータセットの不足に起因する。
本稿では,3次元デジタル化におけるテクスチャと形状予測の両立を図るために,広範囲な2次元ファッションデータセットを活用することを提案する。
論文 参考訳(メタデータ) (2024-10-13T01:25:05Z) - Semantic Score Distillation Sampling for Compositional Text-to-3D Generation [28.88237230872795]
テキスト記述から高品質な3Dアセットを生成することは、コンピュータグラフィックスと視覚研究において重要な課題である。
本稿では,合成テキストから3D生成までの表現性と精度の向上を目的とした新しいSDS手法を提案する。
我々のアプローチは、異なるレンダリングビュー間の一貫性を維持する新しいセマンティック埋め込みを統合する。
明示的な意味指導を活用することで,既存の事前学習拡散モデルの構成能力を解き放つ。
論文 参考訳(メタデータ) (2024-10-11T17:26:00Z) - Text-Driven Diverse Facial Texture Generation via Progressive Latent-Space Refinement [34.00893761125383]
顔画像から生成した3次元Morphable Models(3DMMs)に基づくテクスチャマップからのブートストラップに対する進行的潜時空間改善手法を提案する。
本手法は, フォトリアリスティックな品質, 多様性, 効率に関する既存の3次元テクスチャ生成手法より優れている。
論文 参考訳(メタデータ) (2024-04-15T08:04:44Z) - StableDreamer: Taming Noisy Score Distillation Sampling for Text-to-3D [88.66678730537777]
本稿では3つの進歩を取り入れた方法論であるStableDreamerを紹介する。
まず、SDS生成前の等価性と、簡単な教師付きL2再構成損失を定式化する。
第2に,画像空間拡散は幾何学的精度に寄与するが,色調の鮮明化には潜時空間拡散が不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-02T02:27:58Z) - ConTex-Human: Free-View Rendering of Human from a Single Image with
Texture-Consistent Synthesis [49.28239918969784]
テクスチャに一貫性のあるバックビュー合成モジュールを導入し、参照画像コンテンツをバックビューに転送する。
また、テクスチャマッピングとリファインメントのための可視性対応パッチ整合性正規化と、合成したバックビューテクスチャの組み合わせを提案する。
論文 参考訳(メタデータ) (2023-11-28T13:55:53Z) - EucliDreamer: Fast and High-Quality Texturing for 3D Models with Stable Diffusion Depth [5.158983929861116]
テキストプロンプトと3Dメッシュが与えられた3次元モデルのテクスチャを生成する新しい手法を提案する。
追加の深度情報を考慮し、スコア蒸留サンプリング(SDS)プロセスを実行する。
論文 参考訳(メタデータ) (2023-11-27T06:55:53Z) - HumanNorm: Learning Normal Diffusion Model for High-quality and
Realistic 3D Human Generation [41.82589219009301]
我々は,高品質でリアルな3Dヒューマンジェネレーションのための新しいアプローチであるHumanNormを提案する。
モデルの主な考え方は、正規適応拡散モデルと正規整合拡散モデルを学ぶことによって、3次元幾何学の2次元知覚を強化することである。
HumanNormは、テクスチャとテクスチャの質の両方において、既存のテキストから3Dメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-10-02T17:59:17Z) - 3D Dense Geometry-Guided Facial Expression Synthesis by Adversarial
Learning [54.24887282693925]
本稿では,3次元密度(深度,表面正規度)情報を表現操作に用いる新しいフレームワークを提案する。
既製の最先端3D再構成モデルを用いて深度を推定し,大規模RGB-Depthデータセットを作成する。
実験により,提案手法は競争ベースラインと既存の芸術を大きなマージンで上回ることを示した。
論文 参考訳(メタデータ) (2020-09-30T17:12:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。