論文の概要: Portrait3D: Text-Guided High-Quality 3D Portrait Generation Using Pyramid Representation and GANs Prior
- arxiv url: http://arxiv.org/abs/2404.10394v1
- Date: Tue, 16 Apr 2024 08:52:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 17:23:31.004691
- Title: Portrait3D: Text-Guided High-Quality 3D Portrait Generation Using Pyramid Representation and GANs Prior
- Title(参考訳): Portrait3D: ピラミッド表現とGANによるテキストガイドによる高画質3D画像生成
- Authors: Yiqian Wu, Hao Xu, Xiangjun Tang, Xien Chen, Siyu Tang, Zhebin Zhang, Chen Li, Xiaogang Jin,
- Abstract要約: テキスト・ツー・3D画像生成に先立って,新しい幾何学的外観を持つニューラルレンダリングに基づく新しいフレームワークであるPortrait3Dを提案する。
実験の結果,Portrait3Dはプロンプトに合わせたリアルで高品質で標準的な3D肖像画を制作できることがわかった。
- 参考スコア(独自算出の注目度): 21.18119394249007
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing neural rendering-based text-to-3D-portrait generation methods typically make use of human geometry prior and diffusion models to obtain guidance. However, relying solely on geometry information introduces issues such as the Janus problem, over-saturation, and over-smoothing. We present Portrait3D, a novel neural rendering-based framework with a novel joint geometry-appearance prior to achieve text-to-3D-portrait generation that overcomes the aforementioned issues. To accomplish this, we train a 3D portrait generator, 3DPortraitGAN-Pyramid, as a robust prior. This generator is capable of producing 360{\deg} canonical 3D portraits, serving as a starting point for the subsequent diffusion-based generation process. To mitigate the "grid-like" artifact caused by the high-frequency information in the feature-map-based 3D representation commonly used by most 3D-aware GANs, we integrate a novel pyramid tri-grid 3D representation into 3DPortraitGAN-Pyramid. To generate 3D portraits from text, we first project a randomly generated image aligned with the given prompt into the pre-trained 3DPortraitGAN-Pyramid's latent space. The resulting latent code is then used to synthesize a pyramid tri-grid. Beginning with the obtained pyramid tri-grid, we use score distillation sampling to distill the diffusion model's knowledge into the pyramid tri-grid. Following that, we utilize the diffusion model to refine the rendered images of the 3D portrait and then use these refined images as training data to further optimize the pyramid tri-grid, effectively eliminating issues with unrealistic color and unnatural artifacts. Our experimental results show that Portrait3D can produce realistic, high-quality, and canonical 3D portraits that align with the prompt.
- Abstract(参考訳): 既存のニューラルネットワークベースのテキスト・ツー・3D画像生成手法は、人間の幾何学的先行と拡散モデルを用いてガイダンスを得るのが一般的である。
しかし、幾何学情報のみに依存すると、ヤヌス問題、過飽和、過平滑化といった問題が発生する。
上記の課題を克服するテキスト・ツー・3D画像生成を実現するために,新しい共同幾何学的外観を持つニューラルレンダリングに基づく新しいフレームワークであるPortrait3Dを提案する。
これを実現するために、3DポートレートGAN-Pyramidという3Dポートレートジェネレータを頑健な事前訓練を行う。
このジェネレータは360{\deg}の標準3D画像を生成することができ、その後の拡散ベースの生成プロセスの出発点となる。
多くの3次元GANで一般的に使われている特徴マップベース3D表現の高周波情報による「グリッド状」アーティファクトを緩和するため、新しいピラミッドトリグリッド3D表現を3DPortraitGAN-Pyramidに統合する。
テキストから3D画像を生成するために,まず,予め訓練した3DPortraitGAN-Pyramidの潜伏空間に,与えられたプロンプトに沿ったランダムに生成された画像を投影する。
得られた潜在コードは、ピラミッドトリグリッドの合成に使用される。
得られたピラミッドトリグリッドから, 拡散モデルの知識をピラミッドトリグリッドに蒸留するために, スコア蒸留法を用いて実験を行った。
その後、拡散モデルを用いて3次元像の描画画像を精細化し、これらの精細画像をトレーニングデータとして利用し、ピラミッド・トリグリッドをさらに最適化し、非現実的な色や非自然的アーティファクトの問題を効果的に除去する。
実験の結果,Portrait3Dはプロンプトに合わせたリアルで高品質で標準的な3D肖像画を制作できることがわかった。
関連論文リスト
- Deep Geometric Moments Promote Shape Consistency in Text-to-3D Generation [27.43973967994717]
MT3Dは高忠実度3Dオブジェクトを利用して視点バイアスを克服するテキスト・ツー・3D生成モデルである。
生成した2次元画像が基本形状と構造を保持することを保証するために,高品質な3次元モデルから導出される深度マップを制御信号として利用する。
3Dアセットから幾何学的詳細を取り入れることで、MT3Dは多様で幾何学的に一貫したオブジェクトを作成することができる。
論文 参考訳(メタデータ) (2024-08-12T06:25:44Z) - DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - Isotropic3D: Image-to-3D Generation Based on a Single CLIP Embedding [16.50466940644004]
入力としてCLIPを埋め込んだ画像のみを取り込む画像から3D生成パイプラインであるIsotropic3Dを提案する。
等方性3Dは、最適化をSDS損失のみを静止させることで、方位角の等方性w.r.t.にすることができる。
論文 参考訳(メタデータ) (2024-03-15T15:27:58Z) - EfficientDreamer: High-Fidelity and Robust 3D Creation via Orthogonal-view Diffusion Prior [59.25950280610409]
直交ビュー画像誘導を利用した高画質な3Dコンテンツ生成パイプラインを提案する。
本稿では,与えられたテキストプロンプトに基づいて4つのサブイメージからなる画像を生成する2次元拡散モデルを提案する。
また,生成した3Dコンテンツの詳細をさらに改善する3D合成ネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-25T07:39:26Z) - Magic123: One Image to High-Quality 3D Object Generation Using Both 2D
and 3D Diffusion Priors [104.79392615848109]
Magic123は、高品質でテクスチャ化された3Dメッシュのための、2段階の粗大なアプローチである。
最初の段階では、粗い幾何学を生成するために、神経放射場を最適化する。
第2段階では、視覚的に魅力的なテクスチャを持つ高分解能メッシュを生成するために、メモリ効率のよい微分可能なメッシュ表現を採用する。
論文 参考訳(メタデータ) (2023-06-30T17:59:08Z) - Freestyle 3D-Aware Portrait Synthesis Based on Compositional Generative
Priors [12.663585627797863]
テキスト駆動型3D画像合成フレームワークを提案する。
具体的には、ポートレートスタイルのプロンプトに対して、3D対応のGANジェネレータとテキストガイド画像エディタを合成する。
そして、このセットの特殊スタイル領域を提案した3D潜在特徴生成器にマッピングし、与えられたスタイル情報を含む3D表現を得る。
論文 参考訳(メタデータ) (2023-06-27T12:23:04Z) - Self-Supervised Geometry-Aware Encoder for Style-Based 3D GAN Inversion [115.82306502822412]
StyleGANは、画像インバージョンと潜時編集による2次元顔再構成とセマンティック編集において大きな進歩を遂げている。
対応する汎用的な3D GANインバージョンフレームワークがまだ欠けており、3D顔再構成とセマンティック編集の応用が制限されている。
本研究では,その3次元形状と詳細なテクスチャを忠実に復元するために,単一の顔画像から潜伏コードを予測する3D GAN逆変換の課題について検討する。
論文 参考訳(メタデータ) (2022-12-14T18:49:50Z) - Improving 3D-aware Image Synthesis with A Geometry-aware Discriminator [68.0533826852601]
3Dを意識した画像合成は、画像のリアルな2D画像の描画が可能な生成モデルを学ぶことを目的としている。
既存の方法では、適度な3D形状が得られない。
本稿では,3次元GANの改良を目的とした幾何学的識別器を提案する。
論文 参考訳(メタデータ) (2022-09-30T17:59:37Z) - DreamFusion: Text-to-3D using 2D Diffusion [52.52529213936283]
テキストと画像の合成の最近の進歩は、何十億もの画像と画像のペアで訓練された拡散モデルによって引き起こされている。
本研究では,事前訓練された2次元テキスト・ツー・イメージ拡散モデルを用いてテキスト・ツー・3次元合成を行うことにより,これらの制約を回避する。
提案手法では,3次元トレーニングデータや画像拡散モデルの変更は必要とせず,事前訓練した画像拡散モデルの有効性を実証する。
論文 参考訳(メタデータ) (2022-09-29T17:50:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。