論文の概要: HuGeDiff: 3D Human Generation via Diffusion with Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2506.04351v1
- Date: Wed, 04 Jun 2025 18:11:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.363023
- Title: HuGeDiff: 3D Human Generation via Diffusion with Gaussian Splatting
- Title(参考訳): HuGeDiff: ガウススプレイティングによる拡散による3Dヒューマンジェネレーション
- Authors: Maksym Ivashechkin, Oscar Mendez, Richard Bowden,
- Abstract要約: 現在の手法は、細部、手と顔の正確なレンダリング、人間のリアリズム、外観に対する制御性に苦慮している。
これらの課題に対処しようとする弱教師付きパイプラインを提示する。
我々は、最先端のアプローチと比較して、3次元の人間の世代において、オーダー・オブ・マグニチュード・スピードアップを実演する。
- 参考スコア(独自算出の注目度): 33.9893684177763
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: 3D human generation is an important problem with a wide range of applications in computer vision and graphics. Despite recent progress in generative AI such as diffusion models or rendering methods like Neural Radiance Fields or Gaussian Splatting, controlling the generation of accurate 3D humans from text prompts remains an open challenge. Current methods struggle with fine detail, accurate rendering of hands and faces, human realism, and controlability over appearance. The lack of diversity, realism, and annotation in human image data also remains a challenge, hindering the development of a foundational 3D human model. We present a weakly supervised pipeline that tries to address these challenges. In the first step, we generate a photorealistic human image dataset with controllable attributes such as appearance, race, gender, etc using a state-of-the-art image diffusion model. Next, we propose an efficient mapping approach from image features to 3D point clouds using a transformer-based architecture. Finally, we close the loop by training a point-cloud diffusion model that is conditioned on the same text prompts used to generate the original samples. We demonstrate orders-of-magnitude speed-ups in 3D human generation compared to the state-of-the-art approaches, along with significantly improved text-prompt alignment, realism, and rendering quality. We will make the code and dataset available.
- Abstract(参考訳): 3Dヒューマンジェネレーションはコンピュータビジョンとグラフィックスの幅広い応用において重要な問題である。
近年、拡散モデルやニューラルレイディアンスフィールドやガウススプラッティングのようなレンダリング手法のような生成AIが進歩しているにもかかわらず、テキストプロンプトから正確な3D人間を生成することはオープンな課題である。
現在の手法は、細部、手と顔の正確なレンダリング、人間のリアリズム、外観に対する制御性に苦慮している。
人間の画像データにおける多様性、リアリズム、アノテーションの欠如もまた課題であり、基礎的な3次元人間モデルの開発を妨げる。
これらの課題に対処しようとする弱教師付きパイプラインを提示する。
最初のステップでは、最先端の画像拡散モデルを用いて、外観、人種、性別などの制御可能な属性を持つフォトリアリスティックな人間の画像データセットを生成する。
次に,トランスフォーマアーキテクチャを用いた画像特徴から3次元点クラウドへの効率的なマッピング手法を提案する。
最後に、元のサンプルを生成するために使用する同じテキストプロンプトに条件付の点雲拡散モデルを訓練することにより、ループを閉じる。
我々は、最先端のアプローチと比較して、3次元の人間の世代におけるオーダー・オブ・マグニチュード・スピードアップを実証し、テキスト・プロンプトアライメント、リアリズム、レンダリング品質を大幅に改善した。
コードとデータセットを利用可能にします。
関連論文リスト
- 3D Scene Generation: A Survey [41.202497008985425]
3Dシーン生成は、没入型メディア、ロボティクス、自律運転、エンボディドAIといったアプリケーションのために、空間的に構造化され、意味的に意味があり、フォトリアリスティックな環境を合成することを目指している。
このレビューでは、3Dシーン生成の最近の進歩を整理し、生成AI、3Dビジョン、具体化インテリジェンスとの交差点における有望な方向性を強調している。
論文 参考訳(メタデータ) (2025-05-08T17:59:54Z) - SIGMAN:Scaling 3D Human Gaussian Generation with Millions of Assets [72.26350984924129]
本稿では,3次元デジタル化のための潜在空間生成パラダイムを提案する。
我々は,不適切な低次元から高次元のマッピング問題を学習可能な分布シフトに変換する。
我々は、HGS-1Mデータセットを構築するために、合成データと組み合わせた多視点最適化アプローチを採用する。
論文 参考訳(メタデータ) (2025-04-09T15:38:18Z) - UV Gaussians: Joint Learning of Mesh Deformation and Gaussian Textures for Human Avatar Modeling [71.87807614875497]
メッシュ変形と2次元UV空間のガウステクスチャを共同学習することで3次元人体をモデル化するUVガウスアンを提案する。
我々は,多視点画像,走査モデル,パラメトリックモデル登録,およびそれに対応するテクスチャマップを含む,人間の動作の新たなデータセットを収集し,処理する。
論文 参考訳(メタデータ) (2024-03-18T09:03:56Z) - 3D Human Reconstruction in the Wild with Synthetic Data Using Generative Models [52.96248836582542]
本稿では,人間の画像とそれに対応する3Dメッシュアノテーションをシームレスに生成できるHumanWildという,最近の拡散モデルに基づく効果的なアプローチを提案する。
生成モデルを排他的に活用することにより,大規模な人体画像と高品質なアノテーションを生成し,実世界のデータ収集の必要性を解消する。
論文 参考訳(メタデータ) (2024-03-17T06:31:16Z) - HumanRef: Single Image to 3D Human Generation via Reference-Guided
Diffusion [53.1558345421646]
単一ビュー入力から3次元のヒューマン生成フレームワークであるHumanRefを提案する。
生成した3Dモデルが入力画像と光写実的に整合していることを保証するため、HumanRefは参照誘導スコア蒸留サンプリングと呼ばれる新しい手法を導入した。
実験結果から,HumanRefは3D衣服を製作する上で,最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-11-28T17:06:28Z) - HumanNorm: Learning Normal Diffusion Model for High-quality and
Realistic 3D Human Generation [41.82589219009301]
我々は,高品質でリアルな3Dヒューマンジェネレーションのための新しいアプローチであるHumanNormを提案する。
モデルの主な考え方は、正規適応拡散モデルと正規整合拡散モデルを学ぶことによって、3次元幾何学の2次元知覚を強化することである。
HumanNormは、テクスチャとテクスチャの質の両方において、既存のテキストから3Dメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-10-02T17:59:17Z) - DRaCoN -- Differentiable Rasterization Conditioned Neural Radiance
Fields for Articulated Avatars [92.37436369781692]
フルボディの体積アバターを学習するためのフレームワークであるDRaCoNを提案する。
2Dと3Dのニューラルレンダリング技術の利点を利用する。
挑戦的なZJU-MoCapとHuman3.6Mデータセットの実験は、DRaCoNが最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2022-03-29T17:59:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。