論文の概要: GaussianIP: Identity-Preserving Realistic 3D Human Generation via Human-Centric Diffusion Prior
- arxiv url: http://arxiv.org/abs/2503.11143v1
- Date: Fri, 14 Mar 2025 07:16:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:07:20.927182
- Title: GaussianIP: Identity-Preserving Realistic 3D Human Generation via Human-Centric Diffusion Prior
- Title(参考訳): GaussianIP:人中心拡散によるアイデンティティ保存リアルな3Dヒューマンジェネレーション
- Authors: Zichen Tang, Yuan Yao, Miaomiao Cui, Liefeng Bo, Hongyu Yang,
- Abstract要約: テキストと画像のプロンプトから現実的な3D人物を識別する2段階のフレームワークを提案する。
私たちの中核となる洞察は、人中心の知識を活用して生成プロセスを促進することです。
実験により、ガウシアンIPは視覚的品質とトレーニング効率の両方で既存の手法より優れていることが示された。
- 参考スコア(独自算出の注目度): 25.72805054203982
- License:
- Abstract: Text-guided 3D human generation has advanced with the development of efficient 3D representations and 2D-lifting methods like Score Distillation Sampling (SDS). However, current methods suffer from prolonged training times and often produce results that lack fine facial and garment details. In this paper, we propose GaussianIP, an effective two-stage framework for generating identity-preserving realistic 3D humans from text and image prompts. Our core insight is to leverage human-centric knowledge to facilitate the generation process. In stage 1, we propose a novel Adaptive Human Distillation Sampling (AHDS) method to rapidly generate a 3D human that maintains high identity consistency with the image prompt and achieves a realistic appearance. Compared to traditional SDS methods, AHDS better aligns with the human-centric generation process, enhancing visual quality with notably fewer training steps. To further improve the visual quality of the face and clothes regions, we design a View-Consistent Refinement (VCR) strategy in stage 2. Specifically, it produces detail-enhanced results of the multi-view images from stage 1 iteratively, ensuring the 3D texture consistency across views via mutual attention and distance-guided attention fusion. Then a polished version of the 3D human can be achieved by directly perform reconstruction with the refined images. Extensive experiments demonstrate that GaussianIP outperforms existing methods in both visual quality and training efficiency, particularly in generating identity-preserving results. Our code is available at: https://github.com/silence-tang/GaussianIP.
- Abstract(参考訳): テキスト誘導型3Dヒューマンジェネレーションは、効率的な3D表現とスコア蒸留サンプリング(SDS)のような2Dリフト法の開発によって進歩している。
しかし、現在の手法では訓練時間が長くなり、顔や衣服の細かい細部が欠けている結果がしばしば生じる。
本稿では,テキストや画像のプロンプトから現実的な3D人物を生成するための効果的な2段階フレームワークであるGaussianIPを提案する。
私たちの中核となる洞察は、人中心の知識を活用して生成プロセスを促進することです。
ステージ1では,画像プロンプトと高い同一性を維持し,現実的な外観を実現する3次元人体を高速に生成する,適応型人体蒸留サンプリング法(AHDS)を提案する。
従来のSDS法と比較して、AHDSは人間の中心的な生成プロセスと整合し、目視品質を著しく向上する。
顔と衣服領域の視覚的品質をさらに向上させるため,第2ステージのビュー・コンシスタント・リファインメント(VCR)戦略を設計する。
具体的には、ステージ1からのマルチビュー画像の詳細な結果を反復的に生成し、相互の注意と距離誘導による注意融合を通じて、ビュー間の3次元テクスチャの整合性を確保する。
そして、その精巧な画像で直接再構成を行うことで、3D人間の精巧なバージョンを実現することができる。
広汎な実験により、ガウシアンIPは、視覚的品質とトレーニング効率の両方において、特にアイデンティティ保存結果の生成において、既存の手法よりも優れていることが示された。
私たちのコードは、https://github.com/silence-tang/GaussianIPで利用可能です。
関連論文リスト
- Arc2Avatar: Generating Expressive 3D Avatars from a Single Image via ID Guidance [69.9745497000557]
本稿では,人間の顔の基盤モデルを用いた最初のSDSベースの手法であるArc2Avatarについて述べる。
我々のアバターは人間の顔メッシュテンプレートとの密接な対応を維持しており、ブレンドシェープによる表現生成を可能にしている。
論文 参考訳(メタデータ) (2025-01-09T17:04:33Z) - GECO: Generative Image-to-3D within a SECOnd [51.20830808525894]
本稿では,1秒以内に動作する高品質な3次元生成モデリング手法GECOを紹介する。
GECOは、前例のないレベルの効率で高品質な3Dメッシュ生成を実現する。
論文 参考訳(メタデータ) (2024-05-30T17:58:00Z) - ID-to-3D: Expressive ID-guided 3D Heads via Score Distillation Sampling [96.87575334960258]
ID-to-3D(ID-to-3D)は、不整合表現を用いたIDとテキスト誘導型3次元頭部を生成する方法である。
前例のないアイデンティティ一貫性と高品質なテクスチャと幾何生成を実現する。
論文 参考訳(メタデータ) (2024-05-26T13:36:45Z) - MVHuman: Tailoring 2D Diffusion with Multi-view Sampling For Realistic
3D Human Generation [45.88714821939144]
テキスト誘導から人間の放射界を生成するためのMVHumanという代替スキームを提案する。
我々のコアは、一貫したマルチビュー画像を生成するための事前学習されたネットワークのデノイングプロセスを調整するためのマルチビューサンプリング戦略である。
論文 参考訳(メタデータ) (2023-12-15T11:56:26Z) - HumanGaussian: Text-Driven 3D Human Generation with Gaussian Splatting [113.37908093915837]
既存の方法は、スコア蒸留サンプリング(SDS)を通じてメッシュやニューラルフィールドのような3D表現を最適化する。
本稿では,高精細な形状とリアルな外観を持つ高品質な3D人間を創出する,効率的かつ効果的な枠組みであるHumanGaussianを提案する。
論文 参考訳(メタデータ) (2023-11-28T18:59:58Z) - HumanRef: Single Image to 3D Human Generation via Reference-Guided
Diffusion [53.1558345421646]
単一ビュー入力から3次元のヒューマン生成フレームワークであるHumanRefを提案する。
生成した3Dモデルが入力画像と光写実的に整合していることを保証するため、HumanRefは参照誘導スコア蒸留サンプリングと呼ばれる新しい手法を導入した。
実験結果から,HumanRefは3D衣服を製作する上で,最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-11-28T17:06:28Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。