論文の概要: DiffusionGAN3D: Boosting Text-guided 3D Generation and Domain Adaption
by Combining 3D GANs and Diffusion Priors
- arxiv url: http://arxiv.org/abs/2312.16837v1
- Date: Thu, 28 Dec 2023 05:46:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 17:17:23.528440
- Title: DiffusionGAN3D: Boosting Text-guided 3D Generation and Domain Adaption
by Combining 3D GANs and Diffusion Priors
- Title(参考訳): DiffusionGAN3D: 3D GANとDiffusion Priorを併用したテキスト誘導3D生成とドメイン適応
- Authors: Biwen Lei, Kai Yu, Mengyang Feng, Miaomiao Cui, Xuansong Xie
- Abstract要約: DiffusionGAN3Dは3D GANと拡散前処理を組み合わせたテキスト誘導型3Dドメイン適応と生成を促進する。
提案フレームワークはドメイン適応とテキスト・トゥ・アバタータスクの両方において優れた結果が得られる。
- 参考スコア(独自算出の注目度): 27.93022650819692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-guided domain adaption and generation of 3D-aware portraits find many
applications in various fields. However, due to the lack of training data and
the challenges in handling the high variety of geometry and appearance, the
existing methods for these tasks suffer from issues like inflexibility,
instability, and low fidelity. In this paper, we propose a novel framework
DiffusionGAN3D, which boosts text-guided 3D domain adaption and generation by
combining 3D GANs and diffusion priors. Specifically, we integrate the
pre-trained 3D generative models (e.g., EG3D) and text-to-image diffusion
models. The former provides a strong foundation for stable and high-quality
avatar generation from text. And the diffusion models in turn offer powerful
priors and guide the 3D generator finetuning with informative direction to
achieve flexible and efficient text-guided domain adaption. To enhance the
diversity in domain adaption and the generation capability in text-to-avatar,
we introduce the relative distance loss and case-specific learnable triplane
respectively. Besides, we design a progressive texture refinement module to
improve the texture quality for both tasks above. Extensive experiments
demonstrate that the proposed framework achieves excellent results in both
domain adaption and text-to-avatar tasks, outperforming existing methods in
terms of generation quality and efficiency. The project homepage is at
https://younglbw.github.io/DiffusionGAN3D-homepage/.
- Abstract(参考訳): テキスト誘導型ドメイン適応と3D認識画像の生成は、様々な分野で多くの応用を見出した。
しかしながら、トレーニングデータの欠如と、多種多様な幾何学と外観を扱うことの難しさから、これらのタスクの既存の方法は、柔軟性の欠如、不安定性、低忠実性といった問題に苦しめられている。
本稿では,3D GANと拡散前処理を組み合わせたテキスト誘導型3Dドメイン適応と生成を促進する新しいフレームワークDiffusionGAN3Dを提案する。
具体的には,事前学習した3次元生成モデル(eg3dなど)とテキストから画像への拡散モデルを統合する。
前者はテキストから安定した高品質なアバター生成のための強力な基盤を提供する。
そして、拡散モデルは、強力で効率的なテキスト誘導ドメイン適応を実現するために、3Dジェネレータの微調整を情報的方向でガイドする。
テキスト対アバタールにおけるドメイン適応の多様性と生成能力を高めるために,それぞれ,相対的距離損失とケース固有の学習可能な三面体を導入する。
さらに,上述の両タスクのテクスチャ品質を向上させるために,プログレッシブなテクスチャリファインメントモジュールを設計する。
広範な実験により、提案フレームワークは、ドメイン適応とテキストからアバレルタスクの両方において優れた結果を達成でき、生成品質と効率の点で既存の方法よりも優れています。
プロジェクトのホームページはhttps://younglbw.github.io/DiffusionGAN3D-homepage/にある。
関連論文リスト
- GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation [75.39457097832113]
本稿では,インタラクティブなポイントクラウド構造ラテント空間を備えたスケーラブルで高品質な3D生成を実現する,新しい3D生成フレームワークを提案する。
本フレームワークでは,複数ビューのRGB-D(epth)-N(ormal)レンダリングを入力として使用する変分オートエンコーダを,3次元形状情報を保存する独自のラテント空間設計を用いて構成する。
提案手法であるGaussianAnythingは,複数モード条件付き3D生成をサポートし,ポイントクラウド,キャプション,シングル/マルチビュー画像入力を可能にする。
論文 参考訳(メタデータ) (2024-11-12T18:59:32Z) - VolumeDiffusion: Flexible Text-to-3D Generation with Efficient Volumetric Encoder [56.59814904526965]
本稿では,テキストから3D生成のための先駆的な3Dエンコーダを提案する。
マルチビュー画像から特徴ボリュームを効率よく取得する軽量ネットワークを開発した。
3Dボリュームは、3D U-Netを使用してテキストから3D生成のための拡散モデルに基づいて訓練される。
論文 参考訳(メタデータ) (2023-12-18T18:59:05Z) - Spice-E : Structural Priors in 3D Diffusion using Cross-Entity Attention [9.52027244702166]
Spice-Eは3D拡散モデルに構造ガイダンスを追加するニューラルネットワークである。
提案手法は,3次元スタイリゼーション,意味的形状の編集,テキスト条件の抽象化-to-3Dなど,様々なアプリケーションをサポートする。
論文 参考訳(メタデータ) (2023-11-29T17:36:49Z) - Breathing New Life into 3D Assets with Generative Repainting [74.80184575267106]
拡散ベースのテキスト・ツー・イメージ・モデルは、ビジョン・コミュニティ、アーティスト、コンテンツ・クリエーターから大きな注目を集めた。
近年の研究では、拡散モデルとニューラルネットワークの絡み合いを利用した様々なパイプラインが提案されている。
予備訓練された2次元拡散モデルと標準3次元ニューラルラジアンスフィールドのパワーを独立したスタンドアロンツールとして検討する。
我々のパイプラインはテクスチャ化されたメッシュや無テクスチャのメッシュのような、レガシなレンダリング可能な幾何学を受け入れ、2D生成の洗練と3D整合性強化ツール間の相互作用をオーケストレーションします。
論文 参考訳(メタデータ) (2023-09-15T16:34:51Z) - EfficientDreamer: High-Fidelity and Robust 3D Creation via Orthogonal-view Diffusion Prior [59.25950280610409]
直交ビュー画像誘導を利用した高画質な3Dコンテンツ生成パイプラインを提案する。
本稿では,与えられたテキストプロンプトに基づいて4つのサブイメージからなる画像を生成する2次元拡散モデルを提案する。
また,生成した3Dコンテンツの詳細をさらに改善する3D合成ネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-25T07:39:26Z) - IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。
我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。
組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文 参考訳(メタデータ) (2023-08-22T14:39:17Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - PODIA-3D: Domain Adaptation of 3D Generative Model Across Large Domain
Gap Using Pose-Preserved Text-to-Image Diffusion [15.543034329968465]
ポーズ保存されたテキストから画像への拡散に基づくドメイン適応を3次元生成モデルに適用するPODIA-3Dを提案する。
また, 生成したサンプルの詳細な情報を改善するため, 特殊・汎用的なサンプリング手法を提案する。
提案手法は,テキスト画像対応,リアリズム,レンダリング画像の多様性,および生成したサンプルの3次元形状の深さ感の観点から,既存の3次元テキスト誘導ドメイン適応法よりも優れる。
論文 参考訳(メタデータ) (2023-04-04T15:49:01Z) - DATID-3D: Diversity-Preserved Domain Adaptation Using Text-to-Image
Diffusion for 3D Generative Model [18.362036050304987]
3次元生成モデルは、高解像度のフォトリアリスティック画像をビュー一貫性と詳細な3次元形状で合成する際、顕著な性能を達成した。
テキスト誘導型ドメイン適応法は、あるドメイン上の2次元生成モデルを異なるスタイルの他のドメイン上のモデルに変換する際、顕著な性能を示した。
本稿では,テキスト・ツー・イメージ拡散モデルを用いた3次元生成モデルに適したドメイン適応手法であるDATID-3Dを提案する。
論文 参考訳(メタデータ) (2022-11-29T16:54:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。