論文の概要: SyncHuman: Synchronizing 2D and 3D Generative Models for Single-view Human Reconstruction
- arxiv url: http://arxiv.org/abs/2510.07723v1
- Date: Thu, 09 Oct 2025 03:01:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.82875
- Title: SyncHuman: Synchronizing 2D and 3D Generative Models for Single-view Human Reconstruction
- Title(参考訳): SyncHuman: シングルビューヒューマン再構成のための2次元および3次元生成モデル同期
- Authors: Wenyue Chen, Peng Li, Wangguandong Zheng, Chengfeng Zhao, Mengfei Li, Yaolong Zhu, Zhiyang Dou, Ronggang Wang, Yuan Liu,
- Abstract要約: 光リアリスティックな3Dフルボディの人間の再構築は、映画やビデオゲームの応用には不可欠である。
最近のアプローチでは、SMPL推定とSMPL条件画像生成モデルを利用して、新しい視点を幻覚させる。
2次元多視点生成モデルと3次元ネイティブ生成モデルを組み合わせた新しいフレームワークSyncHumanを提案する。
- 参考スコア(独自算出の注目度): 33.91087232439536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Photorealistic 3D full-body human reconstruction from a single image is a critical yet challenging task for applications in films and video games due to inherent ambiguities and severe self-occlusions. While recent approaches leverage SMPL estimation and SMPL-conditioned image generative models to hallucinate novel views, they suffer from inaccurate 3D priors estimated from SMPL meshes and have difficulty in handling difficult human poses and reconstructing fine details. In this paper, we propose SyncHuman, a novel framework that combines 2D multiview generative model and 3D native generative model for the first time, enabling high-quality clothed human mesh reconstruction from single-view images even under challenging human poses. Multiview generative model excels at capturing fine 2D details but struggles with structural consistency, whereas 3D native generative model generates coarse yet structurally consistent 3D shapes. By integrating the complementary strengths of these two approaches, we develop a more effective generation framework. Specifically, we first jointly fine-tune the multiview generative model and the 3D native generative model with proposed pixel-aligned 2D-3D synchronization attention to produce geometrically aligned 3D shapes and 2D multiview images. To further improve details, we introduce a feature injection mechanism that lifts fine details from 2D multiview images onto the aligned 3D shapes, enabling accurate and high-fidelity reconstruction. Extensive experiments demonstrate that SyncHuman achieves robust and photo-realistic 3D human reconstruction, even for images with challenging poses. Our method outperforms baseline methods in geometric accuracy and visual fidelity, demonstrating a promising direction for future 3D generation models.
- Abstract(参考訳): フォトリアリスティックな3Dフルボディの人間の再構築は、固有の曖昧さと厳しい自己排他性のために、映画やビデオゲームの応用にとって、非常に難しい課題である。
近年、SMPL推定とSMPL条件画像生成モデルを用いて新しい視点を幻覚させる手法が提案されているが、SMPLメッシュから推定される不正確な3D先行性に悩まされ、難解な人間のポーズの処理や詳細の再構築が困難になっている。
本稿では,2次元マルチビュー生成モデルと3次元ネイティブ生成モデルを組み合わせた新しいフレームワークSyncHumanを提案する。
マルチビュー生成モデルは微細な2次元の細部を捉えるのに優れるが、構造的な整合性に苦慮する一方、3次元ネイティブ生成モデルは粗いが構造的に整合性のある3次元形状を生成する。
これら2つのアプローチの相補的な長所を統合することにより、より効果的な生成フレームワークを開発する。
具体的には,まず,多視点生成モデルと3次元ネイティブ生成モデルに画素整列2D-3D同期注意を伴い,幾何学的に整列した3次元形状と2次元多視点画像を生成する。
さらに,2次元マルチビュー画像からの細部を3次元形状に引き上げる機能注入機構を導入し,高精度かつ高忠実な再構成を実現する。
大規模な実験により、SyncHumanは、挑戦的なポーズを持つ画像であっても、頑丈で写実的な3D人間の再構築を実現することが実証された。
提案手法は,幾何学的精度と視覚的忠実度においてベースライン法より優れており,将来の3次元生成モデルに期待できる方向を示す。
関連論文リスト
- Geometry and Perception Guided Gaussians for Multiview-consistent 3D Generation from a Single Image [10.648593818811976]
既存のアプローチはしばしば、微調整された事前訓練された2D拡散モデルや、高速ネットワーク推論を通じて直接3D情報を生成することに依存している。
本稿では,新たなモデルトレーニングを必要とせず,幾何学と知覚情報をシームレスに統合する新しい手法を提案する。
実験結果から,新しい視点合成法や3次元再構成法よりも優れ,頑健で一貫した3次元オブジェクト生成を実証した。
論文 参考訳(メタデータ) (2025-06-26T11:22:06Z) - CDI3D: Cross-guided Dense-view Interpolation for 3D Reconstruction [25.468907201804093]
大規模再構成モデル (LRM) は, 2次元拡散モデルにより生成された多視点画像を利用して3次元コンテンツを抽出する際の大きな可能性を示している。
しかし、2次元拡散モデルはしばしば、強い多視点一貫性を持つ高密度画像を生成するのに苦労する。
CDI3Dは,高画質で高画質な3D画像生成を実現するためのフィードフォワードフレームワークである。
論文 参考訳(メタデータ) (2025-03-11T03:08:43Z) - BAG: Body-Aligned 3D Wearable Asset Generation [59.7545477546307]
BagはBody-aligned Asset Generation(ボディ・アセット・ジェネレーション・ジェネレーション)と呼ばれ、3Dウェアラブル・アセットを出力する。
その結果, 画像のプロンプト追従能力, 形状の多様性, 形状品質の点で, 既存の手法に比べて大きな優位性を示した。
論文 参考訳(メタデータ) (2025-01-27T16:23:45Z) - Zero-1-to-G: Taming Pretrained 2D Diffusion Model for Direct 3D Generation [66.75243908044538]
我々は,事前学習した2次元拡散モデルを用いたガウススプラット上での3次元直接生成手法であるZero-1-to-Gを導入する。
3D認識を取り入れるために,複雑な相関関係を捉え,生成されたスプラット間の3D一貫性を強制する,クロスビュー層とクロスアトリビュートアテンション層を導入する。
これにより、Zero-1-to-Gは、事前訓練された2D拡散前処理を効果的に活用する最初の直接画像から3D生成モデルとなり、効率的なトレーニングと未確認物体への一般化が実現された。
論文 参考訳(メタデータ) (2025-01-09T18:37:35Z) - MagicMan: Generative Novel View Synthesis of Humans with 3D-Aware Diffusion and Iterative Refinement [23.707586182294932]
単一画像再構成における既存の作業は、訓練データ不足や総合的な多視点知識の欠如による3次元不整合により、弱い一般化性に悩まされている。
単一の参照画像から高品質な新規ビュー画像を生成するために設計された,人間固有の多視点拡散モデルであるMagicManを紹介する。
論文 参考訳(メタデータ) (2024-08-26T12:10:52Z) - Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - En3D: An Enhanced Generative Model for Sculpting 3D Humans from 2D
Synthetic Data [36.51674664590734]
本研究では,高品質な3次元アバターの小型化を図ったEn3Dを提案する。
従来の3Dデータセットの不足や、視角が不均衡な限られた2Dコレクションと異なり、本研究の目的は、ゼロショットで3D人間を作れる3Dの開発である。
論文 参考訳(メタデータ) (2024-01-02T12:06:31Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - AG3D: Learning to Generate 3D Avatars from 2D Image Collections [96.28021214088746]
本稿では,2次元画像から現実的な3次元人物の新たな逆生成モデルを提案する。
本手法は, 全身型3Dジェネレータを用いて, 体の形状と変形を捉える。
提案手法は, 従来の3次元・調音認識手法よりも幾何的, 外観的に優れていた。
論文 参考訳(メタデータ) (2023-05-03T17:56:24Z) - Deep Generative Models on 3D Representations: A Survey [81.73385191402419]
生成モデルは、新しいインスタンスを生成することによって観測データの分布を学習することを目的としている。
最近、研究者は焦点を2Dから3Dにシフトし始めた。
3Dデータの表現は、非常に大きな課題をもたらします。
論文 参考訳(メタデータ) (2022-10-27T17:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。