論文の概要: PSHuman: Photorealistic Single-view Human Reconstruction using Cross-Scale Diffusion
- arxiv url: http://arxiv.org/abs/2409.10141v1
- Date: Mon, 16 Sep 2024 10:13:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 16:00:03.482039
- Title: PSHuman: Photorealistic Single-view Human Reconstruction using Cross-Scale Diffusion
- Title(参考訳): PSHuman: クロススケール拡散を用いたフォトリアリスティック・シングルビューヒューマンコンストラクション
- Authors: Peng Li, Wangguandong Zheng, Yuan Liu, Tao Yu, Yangguang Li, Xingqun Qi, Mengfei Li, Xiaowei Chi, Siyu Xia, Wei Xue, Wenhan Luo, Qifeng Liu, Yike Guo,
- Abstract要約: PSHumanは、マルチビュー拡散モデルから事前情報を利用した人間のメッシュを明示的に再構築する新しいフレームワークである。
単視点の人間の画像に直接多視点拡散を適用すると、厳密な幾何学的歪みが生じることが判明した。
そこで我々は, SMPL-Xのようなパラメトリックモデルを用いて, 人間のポーズの断面形状の整合性を高めるために, 生成モデルを定式化した。
- 参考スコア(独自算出の注目度): 43.850899288337025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detailed and photorealistic 3D human modeling is essential for various applications and has seen tremendous progress. However, full-body reconstruction from a monocular RGB image remains challenging due to the ill-posed nature of the problem and sophisticated clothing topology with self-occlusions. In this paper, we propose PSHuman, a novel framework that explicitly reconstructs human meshes utilizing priors from the multiview diffusion model. It is found that directly applying multiview diffusion on single-view human images leads to severe geometric distortions, especially on generated faces. To address it, we propose a cross-scale diffusion that models the joint probability distribution of global full-body shape and local facial characteristics, enabling detailed and identity-preserved novel-view generation without any geometric distortion. Moreover, to enhance cross-view body shape consistency of varied human poses, we condition the generative model on parametric models like SMPL-X, which provide body priors and prevent unnatural views inconsistent with human anatomy. Leveraging the generated multi-view normal and color images, we present SMPLX-initialized explicit human carving to recover realistic textured human meshes efficiently. Extensive experimental results and quantitative evaluations on CAPE and THuman2.1 datasets demonstrate PSHumans superiority in geometry details, texture fidelity, and generalization capability.
- Abstract(参考訳): 詳細でフォトリアリスティックな3Dモデリングは、様々なアプリケーションに不可欠であり、非常に進歩している。
しかし, 単眼のRGB画像からの全身再構成は, 問題の性質が不明確で, 自己閉塞性のある高度な衣料トポロジーのため, 依然として困難である。
本稿では,PSHumanを提案する。PSHumanは,マルチビュー拡散モデルから先行モデルを用いて,人間のメッシュを明示的に再構築する新しいフレームワークである。
単視点の人体画像に直接多視点拡散を適用すると、特に生成された顔に対して、厳密な幾何学的歪みが生じることが判明した。
そこで本研究では,グローバルな全体形状と局所的な顔特性の連立確率分布をモデル化し,幾何学的歪みを伴わずに,詳細かつアイデンティティを保った新規ビュー生成を実現するクロススケール拡散法を提案する。
さらに,ヒトのポーズの断面形状の整合性を高めるため,SMPL-Xなどのパラメトリックモデルに生成モデルを適用し,人間の解剖と矛盾する不自然な視線を防止する。
生成したマルチビューの正常画像とカラー画像を利用して,SMPLXを初期化した明示的な人間の彫刻を行い,現実的なテクスチャ化された人間のメッシュを効率よく再現する。
CAPEとTHuman2.1データセットの大規模な実験結果と定量的評価は、幾何学的詳細、テクスチャの忠実度、一般化能力においてPSHumansが優れていることを示している。
関連論文リスト
- DiHuR: Diffusion-Guided Generalizable Human Reconstruction [51.31232435994026]
一般化可能なヒト3次元再構成のための拡散誘導モデルであるDiHuRを導入し,スパース・ミニマル・オーバーラップ画像からのビュー合成について述べる。
提案手法は, 一般化可能なフィードフォワードモデルと2次元拡散モデルとの2つのキー前処理をコヒーレントな方法で統合する。
論文 参考訳(メタデータ) (2024-11-16T03:52:23Z) - Single Image, Any Face: Generalisable 3D Face Generation [59.9369171926757]
我々は,制約のない単一画像入力を伴う3次元顔を生成する新しいモデルGen3D-Faceを提案する。
私たちの知る限りでは、これは1枚の画像からフォトリアリスティックな3D顔アバターを作るための最初の試みであり、ベンチマークである。
論文 参考訳(メタデータ) (2024-09-25T14:56:37Z) - MagicMan: Generative Novel View Synthesis of Humans with 3D-Aware Diffusion and Iterative Refinement [23.707586182294932]
単一画像再構成における既存の作業は、訓練データ不足や総合的な多視点知識の欠如による3次元不整合により、弱い一般化性に悩まされている。
単一の参照画像から高品質な新規ビュー画像を生成するために設計された,人間固有の多視点拡散モデルであるMagicManを紹介する。
論文 参考訳(メタデータ) (2024-08-26T12:10:52Z) - HumanSplat: Generalizable Single-Image Human Gaussian Splatting with Structure Priors [47.62426718293504]
HumanSplatは、単一の入力画像から、任意の人間の3次元ガウススプティング特性を予測する。
HumanSplatは、フォトリアリスティックなノベルビュー合成を実現するために、既存の最先端の手法を超越している。
論文 参考訳(メタデータ) (2024-06-18T10:05:33Z) - Generalizable Human Gaussians from Single-View Image [52.100234836129786]
単視点一般化可能なHuman Gaussian Model(HGM)を導入する。
提案手法では, 粗い予測されたヒトガウスの背景画像を改良するために, ControlNet を用いる。
非現実的な人間のポーズや形状の潜在的な発生を緩和するために、SMPL-Xモデルからの人間の先行を二重分岐として組み込む。
論文 参考訳(メタデータ) (2024-06-10T06:38:11Z) - Towards Effective Usage of Human-Centric Priors in Diffusion Models for
Text-based Human Image Generation [24.49857926071974]
バニラテキスト画像拡散モデルでは、正確な人間の画像を生成するのに苦労する。
既存のメソッドは、主に余分なイメージでモデルを微調整したり、追加のコントロールを追加することでこの問題に対処する。
本稿では,人間中心の先行概念のモデル微調整段階への直接統合について検討する。
論文 参考訳(メタデータ) (2024-03-08T11:59:32Z) - Template-Free Single-View 3D Human Digitalization with Diffusion-Guided LRM [29.13412037370585]
本稿では,拡散誘導フィードフォワードモデルであるHuman-LRMを提案する。
本手法は,例えばSMPLなどのテンプレートを使わずにヒトを捕獲し,リッチでリアルなディテールで咬合部を効果的に増強することができる。
論文 参考訳(メタデータ) (2024-01-22T18:08:22Z) - HyperHuman: Hyper-Realistic Human Generation with Latent Structural Diffusion [114.15397904945185]
本稿では,高リアリズムと多彩なレイアウトの人体画像を生成する統一的なフレームワークHyperHumanを提案する。
本モデルは,統合ネットワークにおける画像の外観,空間的関係,幾何学の連成学習を強制する。
我々のフレームワークは最先端の性能を生み出し、多様なシナリオ下で超現実的な人間の画像を生成する。
論文 参考訳(メタデータ) (2023-10-12T17:59:34Z) - GM-NeRF: Learning Generalizable Model-based Neural Radiance Fields from
Multi-view Images [79.39247661907397]
本稿では,自由視点画像の合成に有効なフレームワークであるGeneralizable Model-based Neural Radiance Fieldsを提案する。
具体的には、多視点2D画像からの出現コードを幾何学的プロキシに登録するための幾何学誘導型アテンション機構を提案する。
論文 参考訳(メタデータ) (2023-03-24T03:32:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。