論文の概要: PSHuman: Photorealistic Single-view Human Reconstruction using Cross-Scale Diffusion
- arxiv url: http://arxiv.org/abs/2409.10141v1
- Date: Mon, 16 Sep 2024 10:13:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 16:00:03.482039
- Title: PSHuman: Photorealistic Single-view Human Reconstruction using Cross-Scale Diffusion
- Title(参考訳): PSHuman: クロススケール拡散を用いたフォトリアリスティック・シングルビューヒューマンコンストラクション
- Authors: Peng Li, Wangguandong Zheng, Yuan Liu, Tao Yu, Yangguang Li, Xingqun Qi, Mengfei Li, Xiaowei Chi, Siyu Xia, Wei Xue, Wenhan Luo, Qifeng Liu, Yike Guo,
- Abstract要約: PSHumanは、マルチビュー拡散モデルから事前情報を利用した人間のメッシュを明示的に再構築する新しいフレームワークである。
単視点の人間の画像に直接多視点拡散を適用すると、厳密な幾何学的歪みが生じることが判明した。
そこで我々は, SMPL-Xのようなパラメトリックモデルを用いて, 人間のポーズの断面形状の整合性を高めるために, 生成モデルを定式化した。
- 参考スコア(独自算出の注目度): 43.850899288337025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detailed and photorealistic 3D human modeling is essential for various applications and has seen tremendous progress. However, full-body reconstruction from a monocular RGB image remains challenging due to the ill-posed nature of the problem and sophisticated clothing topology with self-occlusions. In this paper, we propose PSHuman, a novel framework that explicitly reconstructs human meshes utilizing priors from the multiview diffusion model. It is found that directly applying multiview diffusion on single-view human images leads to severe geometric distortions, especially on generated faces. To address it, we propose a cross-scale diffusion that models the joint probability distribution of global full-body shape and local facial characteristics, enabling detailed and identity-preserved novel-view generation without any geometric distortion. Moreover, to enhance cross-view body shape consistency of varied human poses, we condition the generative model on parametric models like SMPL-X, which provide body priors and prevent unnatural views inconsistent with human anatomy. Leveraging the generated multi-view normal and color images, we present SMPLX-initialized explicit human carving to recover realistic textured human meshes efficiently. Extensive experimental results and quantitative evaluations on CAPE and THuman2.1 datasets demonstrate PSHumans superiority in geometry details, texture fidelity, and generalization capability.
- Abstract(参考訳): 詳細でフォトリアリスティックな3Dモデリングは、様々なアプリケーションに不可欠であり、非常に進歩している。
しかし, 単眼のRGB画像からの全身再構成は, 問題の性質が不明確で, 自己閉塞性のある高度な衣料トポロジーのため, 依然として困難である。
本稿では,PSHumanを提案する。PSHumanは,マルチビュー拡散モデルから先行モデルを用いて,人間のメッシュを明示的に再構築する新しいフレームワークである。
単視点の人体画像に直接多視点拡散を適用すると、特に生成された顔に対して、厳密な幾何学的歪みが生じることが判明した。
そこで本研究では,グローバルな全体形状と局所的な顔特性の連立確率分布をモデル化し,幾何学的歪みを伴わずに,詳細かつアイデンティティを保った新規ビュー生成を実現するクロススケール拡散法を提案する。
さらに,ヒトのポーズの断面形状の整合性を高めるため,SMPL-Xなどのパラメトリックモデルに生成モデルを適用し,人間の解剖と矛盾する不自然な視線を防止する。
生成したマルチビューの正常画像とカラー画像を利用して,SMPLXを初期化した明示的な人間の彫刻を行い,現実的なテクスチャ化された人間のメッシュを効率よく再現する。
CAPEとTHuman2.1データセットの大規模な実験結果と定量的評価は、幾何学的詳細、テクスチャの忠実度、一般化能力においてPSHumansが優れていることを示している。
関連論文リスト
- HumanSplat: Generalizable Single-Image Human Gaussian Splatting with Structure Priors [47.62426718293504]
HumanSplatは、単一の入力画像から、任意の人間の3次元ガウススプティング特性を予測する。
HumanSplatは、フォトリアリスティックなノベルビュー合成を実現するために、既存の最先端の手法を超越している。
論文 参考訳(メタデータ) (2024-06-18T10:05:33Z) - Generalizable Human Gaussians from Single-View Image [54.712838657788566]
単一画像からの3次元人体モデリングのための拡散誘導フレームワークであるHGM(Single-view Generalizable Human Gaussian Model)を提案する。
観察されていない視点を幻覚させる効果はあるが、このアプローチは監督の欠如により非現実的な人間のポーズや形を生み出す可能性がある。
公開データセットに対する我々のアプローチを検証し、PSNRとSSIMの点で最先端の手法を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2024-06-10T06:38:11Z) - HINT: Learning Complete Human Neural Representations from Limited Viewpoints [69.76947323932107]
我々は、限られた視野角から詳細な人間のモデルを学習できるNeRFベースのアルゴリズムを提案する。
その結果,数個の視角からでも完全な人間の再構築が可能となり,性能は15%以上向上した。
論文 参考訳(メタデータ) (2024-05-30T05:43:09Z) - Towards Effective Usage of Human-Centric Priors in Diffusion Models for
Text-based Human Image Generation [24.49857926071974]
バニラテキスト画像拡散モデルでは、正確な人間の画像を生成するのに苦労する。
既存のメソッドは、主に余分なイメージでモデルを微調整したり、追加のコントロールを追加することでこの問題に対処する。
本稿では,人間中心の先行概念のモデル微調整段階への直接統合について検討する。
論文 参考訳(メタデータ) (2024-03-08T11:59:32Z) - Template-Free Single-View 3D Human Digitalization with Diffusion-Guided LRM [29.13412037370585]
本稿では,拡散誘導フィードフォワードモデルであるHuman-LRMを提案する。
本手法は,例えばSMPLなどのテンプレートを使わずにヒトを捕獲し,リッチでリアルなディテールで咬合部を効果的に増強することができる。
論文 参考訳(メタデータ) (2024-01-22T18:08:22Z) - HyperHuman: Hyper-Realistic Human Generation with Latent Structural Diffusion [114.15397904945185]
本稿では,高リアリズムと多彩なレイアウトの人体画像を生成する統一的なフレームワークHyperHumanを提案する。
本モデルは,統合ネットワークにおける画像の外観,空間的関係,幾何学の連成学習を強制する。
我々のフレームワークは最先端の性能を生み出し、多様なシナリオ下で超現実的な人間の画像を生成する。
論文 参考訳(メタデータ) (2023-10-12T17:59:34Z) - GM-NeRF: Learning Generalizable Model-based Neural Radiance Fields from
Multi-view Images [79.39247661907397]
本稿では,自由視点画像の合成に有効なフレームワークであるGeneralizable Model-based Neural Radiance Fieldsを提案する。
具体的には、多視点2D画像からの出現コードを幾何学的プロキシに登録するための幾何学誘導型アテンション機構を提案する。
論文 参考訳(メタデータ) (2023-03-24T03:32:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。