Fugu-MT 論文翻訳(概要): HumanDreamer-X: Photorealistic Single-image Human Avatars Reconstruction via Gaussian Restoration

論文の概要: HumanDreamer-X: Photorealistic Single-image Human Avatars Reconstruction via Gaussian Restoration

arxiv url: http://arxiv.org/abs/2504.03536v1
Date: Fri, 04 Apr 2025 15:35:14 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-14 16:15:55.471335
Title: HumanDreamer-X: Photorealistic Single-image Human Avatars Reconstruction via Gaussian Restoration
Title（参考訳）: HumanDreamer-X: ガウス修復によるフォトリアリスティック・シングルイメージヒトアバター再構成
Authors: Boyuan Wang, Runqi Ouyang, Xiaofeng Wang, Zheng Zhu, Guosheng Zhao, Chaojun Ni, Guan Huang, Lihong Liu, Xingang Wang,
Abstract要約: textbfHumanDreamer-Xは、マルチビューのヒューマン生成と再構築を統合パイプラインに統合する新しいフレームワークである。このフレームワークでは、初期幾何学と外観優先を提供するために、3Dガウススプラッティングが明示的な3D表現として機能する。また,多視点にわたる幾何的細部アイデンティティの整合性を効果的に向上するアテンション変調戦略を提案する。
参考スコア（独自算出の注目度）: 29.03216532351979
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Single-image human reconstruction is vital for digital human modeling applications but remains an extremely challenging task. Current approaches rely on generative models to synthesize multi-view images for subsequent 3D reconstruction and animation. However, directly generating multiple views from a single human image suffers from geometric inconsistencies, resulting in issues like fragmented or blurred limbs in the reconstructed models. To tackle these limitations, we introduce \textbf{HumanDreamer-X}, a novel framework that integrates multi-view human generation and reconstruction into a unified pipeline, which significantly enhances the geometric consistency and visual fidelity of the reconstructed 3D models. In this framework, 3D Gaussian Splatting serves as an explicit 3D representation to provide initial geometry and appearance priority. Building upon this foundation, \textbf{HumanFixer} is trained to restore 3DGS renderings, which guarantee photorealistic results. Furthermore, we delve into the inherent challenges associated with attention mechanisms in multi-view human generation, and propose an attention modulation strategy that effectively enhances geometric details identity consistency across multi-view. Experimental results demonstrate that our approach markedly improves generation and reconstruction PSNR quality metrics by 16.45% and 12.65%, respectively, achieving a PSNR of up to 25.62 dB, while also showing generalization capabilities on in-the-wild data and applicability to various human reconstruction backbone models.
Abstract（参考訳）: デジタル人間のモデリングアプリケーションには、シングルイメージの人間の再構築が不可欠だが、それでも非常に難しい課題である。現在のアプローチは、後の3D再構成とアニメーションのために、多視点画像を合成するための生成モデルに依存している。しかし、単一の人間の画像から複数のビューを直接生成することは、幾何学的な矛盾に悩まされ、結果として再構成されたモデルにおける断片化された手足やぼやけた手足のような問題が発生する。これらの制約に対処するために,多視点の人間生成と再構成を統一パイプラインに統合する新しいフレームワークである \textbf{HumanDreamer-X} を導入し,再構成した3次元モデルの幾何的整合性と視覚的忠実性を大幅に向上させる。このフレームワークでは、初期幾何学と外観優先を提供するために、3Dガウススプラッティングが明示的な3D表現として機能する。この基盤の上に構築された \textbf{HumanFixer} は、フォトリアリスティックな結果を保証する3DGSレンダリングを復元するように訓練されている。さらに,マルチビュー・ヒューマン・ジェネレーションにおけるアテンション・メカニズムに関連する課題を掘り下げ,多ビュー間の幾何的詳細アイデンティティの整合性を効果的に向上するアテンション・モジュレーション・ストラテジーを提案する。実験の結果,提案手法はPSNRの品質指標を16.45%,12.65%向上し,最大25.62dBのPSNRを実現し,また,Wildデータへの一般化能力と各種復元バックボーンモデルへの適用性を示した。

関連論文リスト

InpaintHuman: Reconstructing Occluded Humans with Multi-Scale UV Mapping and Identity-Preserving Diffusion Inpainting [64.42884719282323]
InpaintHumanは、モノクロビデオから高忠実で完全でアニマタブルなアバターを生成する新しい方法である。我々のアプローチは、アイデンティティの忠実性を保証するために、直接ピクセルレベルの監視を採用する。
論文参考訳（メタデータ） (2026-01-05T13:26:02Z)
PF-LHM: 3D Animatable Avatar Reconstruction from Pose-free Articulated Human Images [23.745241278910946]
PF-LHMは、1つまたは複数のカジュアルにキャプチャされたポーズレス画像から、高品質な3Dアバターを秒間に生成する大規模な人間再構成モデルである。カメラや人間のポーズアノテーションを必要とせず、高忠実でアニマタブルな3次元アバターを実現する。
論文参考訳（メタデータ） (2025-06-16T17:59:56Z)
SIGMAN:Scaling 3D Human Gaussian Generation with Millions of Assets [72.26350984924129]
本稿では,3次元デジタル化のための潜在空間生成パラダイムを提案する。我々は,不適切な低次元から高次元のマッピング問題を学習可能な分布シフトに変換する。我々は、HGS-1Mデータセットを構築するために、合成データと組み合わせた多視点最適化アプローチを採用する。
論文参考訳（メタデータ） (2025-04-09T15:38:18Z)
CHROME: Clothed Human Reconstruction with Occlusion-Resilience and Multiview-Consistency from a Single Image [41.09080719555336]
我々は,1つの隠蔽画像から複数視点の整合性を持つ3次元人体を再構成するための新しいパイプラインを提案する。そして、3次元再構成モデルを用いて、隠蔽された入力と合成されたビューの両方に条件付き3次元ガウスの集合を予測する。新規なビュー合成(最大3dbPSNR)と、挑戦的な条件下での幾何学的再構成の両方において、大幅な改善が達成されている。
論文参考訳（メタデータ） (2025-03-19T19:56:18Z)
LHM: Large Animatable Human Reconstruction Model from a Single Image in Seconds [21.99354901986186]
フィードフォワードパスで3次元ガウススプラッティングを表現した高忠実度アバターを推定するためのLHM(Large Animatable Human Reconstruction Model)を提案する。本モデルでは,マルチモーダルトランスフォーマーアーキテクチャを用いて,人体の位置や画像の特徴を効果的に符号化する。我々のLHMは、顔と手を後処理することなく、数秒で可塑性アニマタブルな人間を生成し、再現精度と一般化能力の両方において既存の手法より優れています。
論文参考訳（メタデータ） (2025-03-13T17:59:21Z)
MVD-HuGaS: Human Gaussians from a Single Image via 3D Human Multi-view Diffusion Prior [35.704591162502375]
EmphMVD-HuGaSは,複数視点の人体拡散モデルを用いて,単一の画像から自由視点の3Dレンダリングを可能にする。 T Human2.0と2K2Kデータセットの実験により、提案されたMVD-HuGaSは、単一ビューの3Dレンダリングで最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2025-03-11T09:37:15Z)
GAS: Generative Avatar Synthesis from a Single Image [54.95198111659466]
本研究では,1枚の画像から一対一かつ時間的にコヒーレントなアバターを合成する枠組みを提案する。提案手法は, 回帰に基づく3次元再構成と拡散モデルの生成能力を組み合わせたものである。
論文参考訳（メタデータ） (2025-02-10T19:00:39Z)
FaceLift: Learning Generalizable Single Image 3D Face Reconstruction from Synthetic Heads [54.24070918942727]
1枚の画像から高画質の360度3Dヘッドを復元するための新しいフィードフォワードアプローチであるFaceLiftを提案する。パイプラインはまずマルチビューの潜伏拡散モデルを用いて、1つの入力から一貫したサイドビューとバックビューを生成する。 FaceLiftは、アイデンティティ保存、ディテールリカバリ、レンダリング品質において、最先端の3D顔再構成方法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-12-23T18:59:49Z)
GeneMAN: Generalizable Single-Image 3D Human Reconstruction from Multi-Source Human Data [61.05815629606135]
高忠実度3Dモデルを構築するのが難しい課題です。 GeneMANは高品質な人間のデータを総合的に収集する。 GeneMANは、単一の画像入力から高品質な3Dモデルを生成することができ、最先端の手法よりも優れている。
論文参考訳（メタデータ） (2024-11-27T18:59:54Z)
PSHuman: Photorealistic Single-image 3D Human Reconstruction using Cross-Scale Multiview Diffusion and Explicit Remeshing [47.191113407993015]
PSHumanは、マルチビュー拡散モデルから事前情報を利用した人間のメッシュを明示的に再構築する新しいフレームワークである。単視点の人間の画像に直接多視点拡散を適用すると、厳密な幾何学的歪みが生じることが判明した。そこで我々は, SMPL-Xのようなパラメトリックモデルを用いて, 人間のポーズの断面形状の整合性を高めるために, 生成モデルを定式化した。
論文参考訳（メタデータ） (2024-09-16T10:13:06Z)
GTR: Improving Large 3D Reconstruction Models through Geometry and Texture Refinement [51.97726804507328]
マルチビュー画像から3次元メッシュを再構成する手法を提案する。提案手法は, 変圧器を用いたトリプレーンジェネレータとニューラルレージアンスフィールド(NeRF)モデルを用いた大規模再構成モデルから着想を得たものである。
論文参考訳（メタデータ） (2024-06-09T05:19:24Z)
Template-Free Single-View 3D Human Digitalization with Diffusion-Guided LRM [29.13412037370585]
本稿では,拡散誘導フィードフォワードモデルであるHuman-LRMを提案する。本手法は,例えばSMPLなどのテンプレートを使わずにヒトを捕獲し,リッチでリアルなディテールで咬合部を効果的に増強することができる。
論文参考訳（メタデータ） (2024-01-22T18:08:22Z)
InceptionHuman: Controllable Prompt-to-NeRF for Photorealistic 3D Human Generation [61.62346472443454]
InceptionHumanは、異なるモードのプロンプトの組み合わせで簡単にコントロールでき、フォトリアリスティックな3D人間を生成することができるプロンプト・トゥ・NeRFフレームワークである。 InceptionHumanは、徐々に洗練されたNeRF空間内で、一貫した3Dヒューマン生成を実現する。
論文参考訳（メタデータ） (2023-11-27T15:49:41Z)
THUNDR: Transformer-based 3D HUmaN Reconstruction with Markers [67.8628917474705]
THUNDRは、人の3Dポーズと形状を再構築するトランスフォーマーベースのディープニューラルネットワーク手法である。完全教師付きモデルと自己教師型モデルの両方に対して,Human3.6Mと3DPWの最先端結果を示す。野生で収集された難易度の高い人間のポーズに対して, 非常に堅固な3次元再構成性能を観察した。
論文参考訳（メタデータ） (2021-06-17T09:09:24Z)
SparseFusion: Dynamic Human Avatar Modeling from Sparse RGBD Images [49.52782544649703]
本稿では,RGBDフレームのスパース集合に基づく3次元人体形状の再構築手法を提案する。主な課題は、これらのスパースフレームを標準的な3Dモデルにしっかりと融合させる方法だ。私たちのフレームワークは柔軟で、潜在的なアプリケーションは形状の再構築を超えています。
論文参考訳（メタデータ） (2020-06-05T18:53:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。