Fugu-MT 論文翻訳(概要): PSHuman: Photorealistic Single-view Human Reconstruction using Cross-Scale Diffusion

論文の概要: PSHuman: Photorealistic Single-view Human Reconstruction using Cross-Scale Diffusion

arxiv url: http://arxiv.org/abs/2409.10141v1
Date: Mon, 16 Sep 2024 10:13:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-17 16:00:03.482039
Title: PSHuman: Photorealistic Single-view Human Reconstruction using Cross-Scale Diffusion
Title（参考訳）: PSHuman: クロススケール拡散を用いたフォトリアリスティック・シングルビューヒューマンコンストラクション
Authors: Peng Li, Wangguandong Zheng, Yuan Liu, Tao Yu, Yangguang Li, Xingqun Qi, Mengfei Li, Xiaowei Chi, Siyu Xia, Wei Xue, Wenhan Luo, Qifeng Liu, Yike Guo,
Abstract要約: PSHumanは、マルチビュー拡散モデルから事前情報を利用した人間のメッシュを明示的に再構築する新しいフレームワークである。単視点の人間の画像に直接多視点拡散を適用すると、厳密な幾何学的歪みが生じることが判明した。そこで我々は, SMPL-Xのようなパラメトリックモデルを用いて, 人間のポーズの断面形状の整合性を高めるために, 生成モデルを定式化した。
参考スコア（独自算出の注目度）: 43.850899288337025
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Detailed and photorealistic 3D human modeling is essential for various applications and has seen tremendous progress. However, full-body reconstruction from a monocular RGB image remains challenging due to the ill-posed nature of the problem and sophisticated clothing topology with self-occlusions. In this paper, we propose PSHuman, a novel framework that explicitly reconstructs human meshes utilizing priors from the multiview diffusion model. It is found that directly applying multiview diffusion on single-view human images leads to severe geometric distortions, especially on generated faces. To address it, we propose a cross-scale diffusion that models the joint probability distribution of global full-body shape and local facial characteristics, enabling detailed and identity-preserved novel-view generation without any geometric distortion. Moreover, to enhance cross-view body shape consistency of varied human poses, we condition the generative model on parametric models like SMPL-X, which provide body priors and prevent unnatural views inconsistent with human anatomy. Leveraging the generated multi-view normal and color images, we present SMPLX-initialized explicit human carving to recover realistic textured human meshes efficiently. Extensive experimental results and quantitative evaluations on CAPE and THuman2.1 datasets demonstrate PSHumans superiority in geometry details, texture fidelity, and generalization capability.
Abstract（参考訳）: 詳細でフォトリアリスティックな3Dモデリングは、様々なアプリケーションに不可欠であり、非常に進歩している。しかし, 単眼のRGB画像からの全身再構成は, 問題の性質が不明確で, 自己閉塞性のある高度な衣料トポロジーのため, 依然として困難である。本稿では,PSHumanを提案する。PSHumanは,マルチビュー拡散モデルから先行モデルを用いて,人間のメッシュを明示的に再構築する新しいフレームワークである。単視点の人体画像に直接多視点拡散を適用すると、特に生成された顔に対して、厳密な幾何学的歪みが生じることが判明した。そこで本研究では,グローバルな全体形状と局所的な顔特性の連立確率分布をモデル化し,幾何学的歪みを伴わずに,詳細かつアイデンティティを保った新規ビュー生成を実現するクロススケール拡散法を提案する。さらに,ヒトのポーズの断面形状の整合性を高めるため,SMPL-Xなどのパラメトリックモデルに生成モデルを適用し,人間の解剖と矛盾する不自然な視線を防止する。生成したマルチビューの正常画像とカラー画像を利用して,SMPLXを初期化した明示的な人間の彫刻を行い,現実的なテクスチャ化された人間のメッシュを効率よく再現する。 CAPEとTHuman2.1データセットの大規模な実験結果と定量的評価は、幾何学的詳細、テクスチャの忠実度、一般化能力においてPSHumansが優れていることを示している。

関連論文リスト

DPoser-X: Diffusion Model as Robust 3D Whole-body Human Pose Prior [82.9526308672547]
DPoser-Xは3次元人体写真の拡散に基づく先行モデルである。提案手法は,様々なポーズ中心タスクを逆問題として統一し,変分拡散サンプリングにより解決する。我々のモデルは、常に最先端の代替品よりも優れており、人体全体のポーズを事前モデリングするための新しいベンチマークを確立している。
論文参考訳（メタデータ） (2025-08-01T12:56:39Z)
HumanDreamer-X: Photorealistic Single-image Human Avatars Reconstruction via Gaussian Restoration [29.03216532351979]
textbfHumanDreamer-Xは、マルチビューのヒューマン生成と再構築を統合パイプラインに統合する新しいフレームワークである。このフレームワークでは、初期幾何学と外観優先を提供するために、3Dガウススプラッティングが明示的な3D表現として機能する。また,多視点にわたる幾何的細部アイデンティティの整合性を効果的に向上するアテンション変調戦略を提案する。
論文参考訳（メタデータ） (2025-04-04T15:35:14Z)
GAS: Generative Avatar Synthesis from a Single Image [54.95198111659466]
本研究では,1枚の画像から一対一かつ時間的にコヒーレントなアバターを合成する枠組みを提案する。提案手法は, 回帰に基づく3次元再構成と拡散モデルの生成能力を組み合わせたものである。
論文参考訳（メタデータ） (2025-02-10T19:00:39Z)
Human Multi-View Synthesis from a Single-View Model:Transferred Body and Face Representations [7.448124739584319]
人体と顔の表現を多視点合成に活用する革新的枠組みを提案する。具体的には、大規模人間のデータセットに事前訓練された単一ビューモデルを用いて、多視点ボディ表現を開発する。提案手法は現状の手法よりも優れており,多視点人間合成において優れた性能を発揮する。
論文参考訳（メタデータ） (2024-12-04T04:02:17Z)
GeneMAN: Generalizable Single-Image 3D Human Reconstruction from Multi-Source Human Data [61.05815629606135]
高忠実度3Dモデルを構築するのが難しい課題です。 GeneMANは高品質な人間のデータを総合的に収集する。 GeneMANは、単一の画像入力から高品質な3Dモデルを生成することができ、最先端の手法よりも優れている。
論文参考訳（メタデータ） (2024-11-27T18:59:54Z)
DiHuR: Diffusion-Guided Generalizable Human Reconstruction [51.31232435994026]
一般化可能なヒト3次元再構成のための拡散誘導モデルであるDiHuRを導入し,スパース・ミニマル・オーバーラップ画像からのビュー合成について述べる。提案手法は, 一般化可能なフィードフォワードモデルと2次元拡散モデルとの2つのキー前処理をコヒーレントな方法で統合する。
論文参考訳（メタデータ） (2024-11-16T03:52:23Z)
Single Image, Any Face: Generalisable 3D Face Generation [59.9369171926757]
我々は,制約のない単一画像入力を伴う3次元顔を生成する新しいモデルGen3D-Faceを提案する。私たちの知る限りでは、これは1枚の画像からフォトリアリスティックな3D顔アバターを作るための最初の試みであり、ベンチマークである。
論文参考訳（メタデータ） (2024-09-25T14:56:37Z)
MagicMan: Generative Novel View Synthesis of Humans with 3D-Aware Diffusion and Iterative Refinement [23.707586182294932]
単一画像再構成における既存の作業は、訓練データ不足や総合的な多視点知識の欠如による3次元不整合により、弱い一般化性に悩まされている。単一の参照画像から高品質な新規ビュー画像を生成するために設計された,人間固有の多視点拡散モデルであるMagicManを紹介する。
論文参考訳（メタデータ） (2024-08-26T12:10:52Z)
HumanSplat: Generalizable Single-Image Human Gaussian Splatting with Structure Priors [47.62426718293504]
HumanSplatは、単一の入力画像から、任意の人間の3次元ガウススプティング特性を予測する。 HumanSplatは、フォトリアリスティックなノベルビュー合成を実現するために、既存の最先端の手法を超越している。
論文参考訳（メタデータ） (2024-06-18T10:05:33Z)
Generalizable Human Gaussians from Single-View Image [52.100234836129786]
単視点一般化可能なHuman Gaussian Model(HGM)を導入する。提案手法では, 粗い予測されたヒトガウスの背景画像を改良するために, ControlNet を用いる。非現実的な人間のポーズや形状の潜在的な発生を緩和するために、SMPL-Xモデルからの人間の先行を二重分岐として組み込む。
論文参考訳（メタデータ） (2024-06-10T06:38:11Z)
Towards Effective Usage of Human-Centric Priors in Diffusion Models for Text-based Human Image Generation [24.49857926071974]
バニラテキスト画像拡散モデルでは、正確な人間の画像を生成するのに苦労する。既存のメソッドは、主に余分なイメージでモデルを微調整したり、追加のコントロールを追加することでこの問題に対処する。本稿では,人間中心の先行概念のモデル微調整段階への直接統合について検討する。
論文参考訳（メタデータ） (2024-03-08T11:59:32Z)
Template-Free Single-View 3D Human Digitalization with Diffusion-Guided LRM [29.13412037370585]
本稿では,拡散誘導フィードフォワードモデルであるHuman-LRMを提案する。本手法は,例えばSMPLなどのテンプレートを使わずにヒトを捕獲し,リッチでリアルなディテールで咬合部を効果的に増強することができる。
論文参考訳（メタデータ） (2024-01-22T18:08:22Z)
HyperHuman: Hyper-Realistic Human Generation with Latent Structural Diffusion [114.15397904945185]
本稿では,高リアリズムと多彩なレイアウトの人体画像を生成する統一的なフレームワークHyperHumanを提案する。本モデルは,統合ネットワークにおける画像の外観,空間的関係,幾何学の連成学習を強制する。我々のフレームワークは最先端の性能を生み出し、多様なシナリオ下で超現実的な人間の画像を生成する。
論文参考訳（メタデータ） (2023-10-12T17:59:34Z)
GM-NeRF: Learning Generalizable Model-based Neural Radiance Fields from Multi-view Images [79.39247661907397]
本稿では,自由視点画像の合成に有効なフレームワークであるGeneralizable Model-based Neural Radiance Fieldsを提案する。具体的には、多視点2D画像からの出現コードを幾何学的プロキシに登録するための幾何学誘導型アテンション機構を提案する。
論文参考訳（メタデータ） (2023-03-24T03:32:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。