論文の概要: SIGMAN:Scaling 3D Human Gaussian Generation with Millions of Assets
- arxiv url: http://arxiv.org/abs/2504.06982v1
- Date: Wed, 09 Apr 2025 15:38:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:06:05.550260
- Title: SIGMAN:Scaling 3D Human Gaussian Generation with Millions of Assets
- Title(参考訳): SIGMAN:何百万もの資産で3Dのガウス世代を拡大
- Authors: Yuhang Yang, Fengqi Liu, Yixing Lu, Qin Zhao, Pingyu Wu, Wei Zhai, Ran Yi, Yang Cao, Lizhuang Ma, Zheng-Jun Zha, Junting Dong,
- Abstract要約: 本稿では,3次元デジタル化のための潜在空間生成パラダイムを提案する。
我々は,不適切な低次元から高次元のマッピング問題を学習可能な分布シフトに変換する。
我々は、HGS-1Mデータセットを構築するために、合成データと組み合わせた多視点最適化アプローチを採用する。
- 参考スコア(独自算出の注目度): 72.26350984924129
- License:
- Abstract: 3D human digitization has long been a highly pursued yet challenging task. Existing methods aim to generate high-quality 3D digital humans from single or multiple views, but remain primarily constrained by current paradigms and the scarcity of 3D human assets. Specifically, recent approaches fall into several paradigms: optimization-based and feed-forward (both single-view regression and multi-view generation with reconstruction). However, they are limited by slow speed, low quality, cascade reasoning, and ambiguity in mapping low-dimensional planes to high-dimensional space due to occlusion and invisibility, respectively. Furthermore, existing 3D human assets remain small-scale, insufficient for large-scale training. To address these challenges, we propose a latent space generation paradigm for 3D human digitization, which involves compressing multi-view images into Gaussians via a UV-structured VAE, along with DiT-based conditional generation, we transform the ill-posed low-to-high-dimensional mapping problem into a learnable distribution shift, which also supports end-to-end inference. In addition, we employ the multi-view optimization approach combined with synthetic data to construct the HGS-1M dataset, which contains $1$ million 3D Gaussian assets to support the large-scale training. Experimental results demonstrate that our paradigm, powered by large-scale training, produces high-quality 3D human Gaussians with intricate textures, facial details, and loose clothing deformation.
- Abstract(参考訳): 3Dのデジタル化は、長い間、非常に追求されてきたが難しい課題だった。
既存の手法は、単一の視点や複数の視点から高品質な3Dデジタル人間を生成することを目的としている。
具体的には、最近のアプローチは最適化ベースとフィードフォワード(レグレッションと再構成を伴うマルチビュー生成の両方)の2つのパラダイムに分類される。
しかし、それらは、低次元平面を閉塞と可視性によってそれぞれ高次元空間にマッピングする際の遅い速度、低い品質、カスケード推論、曖昧さによって制限される。
さらに、既存の3D人的資産は小規模のままであり、大規模な訓練には不十分である。
これらの課題に対処するため、我々は、UV構造されたVAEによる多視点画像をガウスに圧縮する3次元人体デジタル化のための遅延空間生成パラダイムと、DiTベースの条件付き生成を併用し、不適切な低次元から高次元のマッピング問題を学習可能な分布シフトに変換するとともに、エンドツーエンドの推論もサポートする3次元人体デジタル化のパラダイムを提案する。
さらに,HGS-1Mデータセットを構築するために合成データと組み合わせた多視点最適化手法を用いて,大規模トレーニングを支援するために,100万ドルの3Dガウス資産を含む。
実験により,我々のパラダイムは大規模トレーニングを駆使して,複雑なテクスチャ,顔の細部,ゆるやかな衣服の変形をともなう高品質な3次元ガウスを創出することが示された。
関連論文リスト
- TripoSG: High-Fidelity 3D Shape Synthesis using Large-Scale Rectified Flow Models [69.0220314849478]
TripoSGは、入力画像に正確に対応した高忠実度3Dメッシュを生成することができる新しい合理化形状拡散パラダイムである。
結果として得られた3D形状は、高解像度の能力によって細部が強化され、入力画像に異常な忠実さを示す。
3Dジェネレーションの分野における進歩と革新を促進するため、我々はモデルを一般公開する。
論文 参考訳(メタデータ) (2025-02-10T16:07:54Z) - DSplats: 3D Generation by Denoising Splats-Based Multiview Diffusion Models [67.50989119438508]
本稿では,ガウスをベースとしたレコンストラクタを用いて,リアルな3Dアセットを生成することで,マルチビュー画像を直接認識するDSplatを紹介した。
実験の結果,DSplatsは高品質で空間的に一貫した出力を生成できるだけでなく,単一画像から3次元再構成への新たな標準も設定できることがわかった。
論文 参考訳(メタデータ) (2024-12-11T07:32:17Z) - Bundle Adjusted Gaussian Avatars Deblurring [31.718130377229482]
本研究では,人間の運動に起因するぼかし形成の3次元的物理指向モデルと,運動誘発ぼかし画像に見られる曖昧さを明らかにするための3次元人体運動モデルを提案する。
我々は,360度同期ハイブリッド露光カメラシステムによって取得された実撮データセットとともに,既存のマルチビューキャプチャから合成されたデータセットを用いて,このタスクのベンチマークを確立した。
論文 参考訳(メタデータ) (2024-11-24T10:03:24Z) - 3D-Consistent Human Avatars with Sparse Inputs via Gaussian Splatting and Contrastive Learning [19.763523500564542]
CHASEはスパース入力のみを使用して高密度なインプットレベルのパフォーマンスを実現する新しいフレームワークである。
トレーニングセットからの類似のポーズを活用することにより,変形したガウスを洗練する動的アバター調整(DAA)モジュールを導入する。
スパース入力用に設計されているが、CHASEはZJU-MoCapとH36Mデータセットのフル設定とスパース設定の両方で最先端のメソッドを超越している。
論文 参考訳(メタデータ) (2024-08-19T02:46:23Z) - Generalizable Human Gaussians for Sparse View Synthesis [48.47812125126829]
そこで本研究では,光写実的かつ正確な視線レンダリングを可能にする,一般化可能なヒトガウシアンを学習するための新しい手法を提案する。
このアプローチの重要な革新は、3次元ガウスパラメータの学習を、人間のテンプレートの2次元UV空間上で定義された回帰プロセスに再構成することである。
提案手法は,データ内一般化とクロスデータセット一般化設定の両方において,最近の手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-17T17:56:30Z) - Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability [118.26563926533517]
自己回帰モデルでは,格子空間における関節分布をモデル化することにより,2次元画像生成において顕著な結果が得られた。
自動回帰モデルを3次元領域に拡張し,キャパシティとスケーラビリティを同時に向上することにより,3次元形状生成の強力な能力を求める。
論文 参考訳(メタデータ) (2024-02-19T15:33:09Z) - MVHuman: Tailoring 2D Diffusion with Multi-view Sampling For Realistic
3D Human Generation [45.88714821939144]
テキスト誘導から人間の放射界を生成するためのMVHumanという代替スキームを提案する。
我々のコアは、一貫したマルチビュー画像を生成するための事前学習されたネットワークのデノイングプロセスを調整するためのマルチビューサンプリング戦略である。
論文 参考訳(メタデータ) (2023-12-15T11:56:26Z) - Pushing the Limits of 3D Shape Generation at Scale [65.24420181727615]
我々は、前例のない次元に拡大することで、3次元形状生成において画期的なブレークスルーを示す。
現在までに最大の3次元形状生成モデルとしてArgus-3Dが確立されている。
論文 参考訳(メタデータ) (2023-06-20T13:01:19Z) - Get3DHuman: Lifting StyleGAN-Human into a 3D Generative Model using
Pixel-aligned Reconstruction Priors [56.192682114114724]
Get3DHumanは、生成された結果のリアリズムと多様性を大幅に向上させる、新しい3Dヒューマンフレームワークである。
我々のキーとなる観察は、この3Dジェネレータは、人間の2Dジェネレータと3Dコンストラクタを通して学んだ、人間関係の先行技術から利益を得ることができるということだ。
論文 参考訳(メタデータ) (2023-02-02T15:37:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。