論文の概要: Joint Geometry-Appearance Human Reconstruction in a Unified Latent Space via Bridge Diffusion
- arxiv url: http://arxiv.org/abs/2601.00328v1
- Date: Thu, 01 Jan 2026 12:48:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.379775
- Title: Joint Geometry-Appearance Human Reconstruction in a Unified Latent Space via Bridge Diffusion
- Title(参考訳): 橋梁拡散による統合潜在空間における関節形状と外観の復元
- Authors: Yingzhi Tang, Qijian Zhang, Junhui Hou,
- Abstract要約: 本稿では,幾何学と外観のモデリングを結合潜在表現に統一する新しいフレームワークである textbfJGA-LBD を紹介する。
実験により、JGA-LBDは、幾何学的忠実度と外観品質の両方の観点から、現在の最先端アプローチよりも優れていることが示された。
- 参考スコア(独自算出の注目度): 57.09673862519791
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Achieving consistent and high-fidelity geometry and appearance reconstruction of 3D digital humans from a single RGB image is inherently a challenging task. Existing studies typically resort to decoupled pipelines for geometry estimation and appearance synthesis, often hindering unified reconstruction and causing inconsistencies. This paper introduces \textbf{JGA-LBD}, a novel framework that unifies the modeling of geometry and appearance into a joint latent representation and formulates the generation process as bridge diffusion. Observing that directly integrating heterogeneous input conditions (e.g., depth maps, SMPL models) leads to substantial training difficulties, we unify all conditions into the 3D Gaussian representations, which can be further compressed into a unified latent space through a shared sparse variational autoencoder (VAE). Subsequently, the specialized form of bridge diffusion enables to start with a partial observation of the target latent code and solely focuses on inferring the missing components. Finally, a dedicated decoding module extracts the complete 3D human geometric structure and renders novel views from the inferred latent representation. Experiments demonstrate that JGA-LBD outperforms current state-of-the-art approaches in terms of both geometry fidelity and appearance quality, including challenging in-the-wild scenarios. Our code will be made publicly available at https://github.com/haiantyz/JGA-LBD.
- Abstract(参考訳): 単一のRGB画像から、一貫した高忠実な幾何学と3Dデジタル人間の外観再構成を実現することは、本質的に難しい作業である。
既存の研究は通常、幾何学的推定と外観合成のために分離されたパイプラインを頼りにしており、しばしば統一された再構築を妨げ、矛盾を引き起こす。
本稿では、幾何学と外観のモデリングを結合潜在表現に統一し、生成過程を橋梁拡散として定式化する新しいフレームワークである「textbf{JGA-LBD}」を紹介する。
ヘテロジニアス入力条件(例えば深度マップ、SMPLモデル)を直接統合することは、訓練上の困難を招き、全ての条件を3次元ガウス表現に統一し、共有スパース変分オートエンコーダ(VAE)によってさらに圧縮できる。
その後、橋梁拡散の特殊な形態は、対象の潜伏コードの部分的な観察から始めることができ、欠落した部品の推測にのみ焦点をあてる。
最後に、専用デコードモジュールが完全な3次元人間の幾何学構造を抽出し、推論された潜在表現から新しいビューを描画する。
実験により、JGA-LBDは、現在最先端のアプローチよりも、幾何学的忠実度と外観品質の両方において優れており、それには挑戦的な現場シナリオが含まれる。
私たちのコードはhttps://github.com/haiantyz/JGA-LBD.comで公開されます。
関連論文リスト
- ArtiLatent: Realistic Articulated 3D Object Generation via Structured Latents [31.495577251319315]
ArtiLatentは、人間の作った3Dオブジェクトを精密な幾何学、正確な調音、リアルな外観で合成する生成フレームワークである。
論文 参考訳(メタデータ) (2025-10-24T13:08:15Z) - Visibility-Aware Densification for 3D Gaussian Splatting in Dynamic Urban Scenes [7.253732091582086]
VAD-GSは3DGSフレームワークで、挑戦的な都市景観の幾何学的復元に適したものだ。
本手法は, ボクセルに基づく可視性推論により, 信頼性の低い幾何学構造を同定する。
多様性を意識したビュー選択を通じて情報的支援ビューを選択し、パッチマッチングベースのステレオ再構築によって行方不明構造を復元する。
論文 参考訳(メタデータ) (2025-10-10T13:22:12Z) - AlignGS: Aligning Geometry and Semantics for Robust Indoor Reconstruction from Sparse Views [18.361136390711415]
屋内シーンのセマンティックにリッチな3Dモデルへの需要は急速に増加しており、拡張現実、仮想現実、ロボット工学の応用によって推進されている。
既存の手法は、しばしば意味論を、既に形成され、潜在的に欠陥のある幾何学に描かれた受動的特徴として扱う。
本稿では、このビジョンを実現する新しいフレームワークであるAlignGSを紹介し、幾何学と意味論の相乗的でエンドツーエンドの最適化を開拓する。
論文 参考訳(メタデータ) (2025-10-09T06:30:20Z) - UniLat3D: Geometry-Appearance Unified Latents for Single-Stage 3D Generation [98.40254523605581]
UniLat3Dは、単一の潜在空間における幾何学と外観を符号化する統一されたフレームワークである。
我々の重要な貢献は、高分解能スパース特徴をコンパクトな潜在表現に圧縮する幾何学的外観統一VAEである。
UniLat3Dは、1枚の画像から数秒で高品質な3Dアセットを生成する。
論文 参考訳(メタデータ) (2025-09-29T17:21:23Z) - HBSplat: Robust Sparse-View Gaussian Reconstruction with Hybrid-Loss Guided Depth and Bidirectional Warping [11.035994094874141]
HBSplatは、堅牢な構造的キュー、仮想ビュー制約、隠蔽された領域補完をシームレスに統合するフレームワークである。
HBSplatは21.13dBのPSNRと0.189LPIPSを達成し、リアルタイム推論を維持している。
論文 参考訳(メタデータ) (2025-09-29T15:03:31Z) - Dens3R: A Foundation Model for 3D Geometry Prediction [44.13431776180547]
Dens3Rは幾何学的密度予測のための3次元基礎モデルである。
画像対マッチング機能と本質的不変性モデリングを統合することにより、Dens3Rは複数の幾何学的量を正確に回帰する。
論文 参考訳(メタデータ) (2025-07-22T07:22:30Z) - Aligned Novel View Image and Geometry Synthesis via Cross-modal Attention Instillation [62.87088388345378]
ワーピング・アンド・インペインティング手法を用いて,新しいビューイメージと幾何学生成の整合性を実現する拡散型フレームワークを提案する。
手法は、既製の幾何学予測器を利用して、参照画像から見る部分的な幾何学を予測する。
生成した画像と幾何の正確なアライメントを確保するために, クロスモーダルアテンション蒸留法を提案する。
論文 参考訳(メタデータ) (2025-06-13T16:19:00Z) - GeoWizard: Unleashing the Diffusion Priors for 3D Geometry Estimation from a Single Image [94.56927147492738]
単一画像から幾何学的属性を推定するための新しい生成基盤モデルであるGeoWizardを紹介する。
拡散前処理の活用は,資源利用における一般化,詳細な保存,効率性を著しく向上させることが示唆された。
本稿では,様々なシーンの複雑なデータ分布を,個別のサブディストリビューションに分離する,シンプルかつ効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-03-18T17:50:41Z) - GeoGS3D: Single-view 3D Reconstruction via Geometric-aware Diffusion Model and Gaussian Splatting [81.03553265684184]
単視点画像から詳細な3Dオブジェクトを再構成するフレームワークであるGeoGS3Dを紹介する。
本稿では,GDS(Gaussian Divergence Significance)という新しい指標を提案する。
実験により、GeoGS3Dはビュー間で高い一貫性を持つ画像を生成し、高品質な3Dオブジェクトを再構成することを示した。
論文 参考訳(メタデータ) (2024-03-15T12:24:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。