論文の概要: PODIA-3D: Domain Adaptation of 3D Generative Model Across Large Domain
Gap Using Pose-Preserved Text-to-Image Diffusion
- arxiv url: http://arxiv.org/abs/2304.01900v1
- Date: Tue, 4 Apr 2023 15:49:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 13:11:31.026715
- Title: PODIA-3D: Domain Adaptation of 3D Generative Model Across Large Domain
Gap Using Pose-Preserved Text-to-Image Diffusion
- Title(参考訳): PODIA-3D: Pose-Preserved Text-to- Image Diffusion を用いた大面積領域ギャップにおける3次元生成モデルのドメイン適応
- Authors: Gwanghyun Kim, Ji Ha Jang, Se Young Chun
- Abstract要約: ポーズ保存されたテキストから画像への拡散に基づくドメイン適応を3次元生成モデルに適用するPODIA-3Dを提案する。
また, 生成したサンプルの詳細な情報を改善するため, 特殊・汎用的なサンプリング手法を提案する。
提案手法は,テキスト画像対応,リアリズム,レンダリング画像の多様性,および生成したサンプルの3次元形状の深さ感の観点から,既存の3次元テキスト誘導ドメイン適応法よりも優れる。
- 参考スコア(独自算出の注目度): 15.543034329968465
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, significant advancements have been made in 3D generative models,
however training these models across diverse domains is challenging and
requires an huge amount of training data and knowledge of pose distribution.
Text-guided domain adaptation methods have allowed the generator to be adapted
to the target domains using text prompts, thereby obviating the need for
assembling numerous data. Recently, DATID-3D presents impressive quality of
samples in text-guided domain, preserving diversity in text by leveraging
text-to-image diffusion. However, adapting 3D generators to domains with
significant domain gaps from the source domain still remains challenging due to
issues in current text-to-image diffusion models as following: 1) shape-pose
trade-off in diffusion-based translation, 2) pose bias, and 3) instance bias in
the target domain, resulting in inferior 3D shapes, low text-image
correspondence, and low intra-domain diversity in the generated samples. To
address these issues, we propose a novel pipeline called PODIA-3D, which uses
pose-preserved text-to-image diffusion-based domain adaptation for 3D
generative models. We construct a pose-preserved text-to-image diffusion model
that allows the use of extremely high-level noise for significant domain
changes. We also propose specialized-to-general sampling strategies to improve
the details of the generated samples. Moreover, to overcome the instance bias,
we introduce a text-guided debiasing method that improves intra-domain
diversity. Consequently, our method successfully adapts 3D generators across
significant domain gaps. Our qualitative results and user study demonstrates
that our approach outperforms existing 3D text-guided domain adaptation methods
in terms of text-image correspondence, realism, diversity of rendered images,
and sense of depth of 3D shapes in the generated samples
- Abstract(参考訳): 近年、3次元生成モデルにおいて重要な進歩がなされているが、これらのモデルを多様なドメインにまたがるトレーニングは困難であり、膨大なトレーニングデータとポーズ分布に関する知識を必要とする。
テキストガイドによるドメイン適応手法により、ジェネレータはテキストプロンプトを使用してターゲットドメインに適応できるため、多数のデータを組み立てる必要がなくなる。
近年,DATID-3Dはテキスト誘導領域におけるサンプルの印象的な品質を示し,テキスト間拡散を利用してテキストの多様性を保っている。
しかし、3Dジェネレータをソースドメインから大きなドメインギャップを持つドメインに適応させることは、現在のテキスト・画像拡散モデルの問題により、依然として難しい。
1)拡散に基づく翻訳における形状的トレードオフ
2)偏りを生じさせ,
3) 対象ドメインのインスタンスバイアスは, 3次元形状が劣り, テキスト画像の対応が低く, 生成サンプルのドメイン内多様性が低かった。
これらの問題に対処するために、ポーズ保存されたテキストから画像への拡散に基づくドメイン適応を用いたPODIA-3Dという新しいパイプラインを提案する。
ポーズ保存されたテキストと画像の拡散モデルを構築し、極めて高レベルなノイズを重要なドメイン変更に利用できるようにする。
また, 生成試料の詳細を改善するために, 汎用的なサンプリング戦略を提案する。
さらに,インスタンスバイアスを克服するために,ドメイン内多様性を向上させるテキストガイドデバイアス手法を導入する。
その結果,本手法は重要な領域間隙に3次元ジェネレータを適応させることに成功した。
質的結果とユーザスタディにより,提案手法は,テキスト画像対応,リアリズム,レンダリング画像の多様性,生成したサンプルにおける3次元形状の深さ感覚といった観点で,既存の3次元テキスト誘導ドメイン適応手法よりも優れていることが示された。
関連論文リスト
- Grounded Compositional and Diverse Text-to-3D with Pretrained Multi-View Diffusion Model [65.58911408026748]
複雑な合成文のプロンプトを正確に追従できる3Dアセットを生成するために,グラウンドド・ドレーマーを提案する。
まず,テキスト・ツー・3Dパイプラインのボトルネックとして,テキスト誘導4視点画像の活用を提唱する。
次に,テキストアラインな4ビュー画像生成を促すための注意再焦点機構を導入する。
論文 参考訳(メタデータ) (2024-04-28T04:05:10Z) - DiffusionGAN3D: Boosting Text-guided 3D Generation and Domain Adaptation by Combining 3D GANs and Diffusion Priors [26.0337715783954]
DiffusionGAN3Dは、3D GANと拡散前処理を組み合わせることで、テキスト誘導型3Dドメイン適応と生成を促進する。
提案フレームワークはドメイン適応とテキスト・トゥ・アバタータスクの両方において優れた結果が得られる。
論文 参考訳(メタデータ) (2023-12-28T05:46:26Z) - CAD: Photorealistic 3D Generation via Adversarial Distillation [28.07049413820128]
本稿では,事前学習した拡散モデルを用いた3次元合成のための新しい学習パラダイムを提案する。
提案手法は,1つの画像に条件付された高忠実かつ光リアルな3Dコンテンツの生成を解放し,プロンプトを行う。
論文 参考訳(メタデータ) (2023-12-11T18:59:58Z) - X-Dreamer: Creating High-quality 3D Content by Bridging the Domain Gap Between Text-to-2D and Text-to-3D Generation [61.48050470095969]
X-Dreamerは高品質なテキストから3Dコンテンツを作成するための新しいアプローチである。
テキスト対2D合成とテキスト対3D合成のギャップを埋める。
論文 参考訳(メタデータ) (2023-11-30T07:23:00Z) - EfficientDreamer: High-Fidelity and Robust 3D Creation via Orthogonal-view Diffusion Prior [59.25950280610409]
直交ビュー画像誘導を利用した高画質な3Dコンテンツ生成パイプラインを提案する。
本稿では,与えられたテキストプロンプトに基づいて4つのサブイメージからなる画像を生成する2次元拡散モデルを提案する。
また,生成した3Dコンテンツの詳細をさらに改善する3D合成ネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-25T07:39:26Z) - IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。
我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。
組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文 参考訳(メタデータ) (2023-08-22T14:39:17Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - StyleAvatar3D: Leveraging Image-Text Diffusion Models for High-Fidelity
3D Avatar Generation [103.88928334431786]
高品質な3Dアバターを製作するための新しい手法を提案する。
データ生成には事前学習した画像テキスト拡散モデルとGANベースの3次元生成ネットワークを用いて訓練を行う。
提案手法は、生産されたアバターの視覚的品質と多様性の観点から、現在の最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-30T13:09:21Z) - Vox-E: Text-guided Voxel Editing of 3D Objects [14.88446525549421]
大規模テキスト誘導拡散モデルが注目されているのは、多様な画像を合成できるためである。
本稿では,既存の3次元オブジェクトの編集に潜時拡散モデルのパワーを利用する手法を提案する。
論文 参考訳(メタデータ) (2023-03-21T17:36:36Z) - DATID-3D: Diversity-Preserved Domain Adaptation Using Text-to-Image
Diffusion for 3D Generative Model [18.362036050304987]
3次元生成モデルは、高解像度のフォトリアリスティック画像をビュー一貫性と詳細な3次元形状で合成する際、顕著な性能を達成した。
テキスト誘導型ドメイン適応法は、あるドメイン上の2次元生成モデルを異なるスタイルの他のドメイン上のモデルに変換する際、顕著な性能を示した。
本稿では,テキスト・ツー・イメージ拡散モデルを用いた3次元生成モデルに適したドメイン適応手法であるDATID-3Dを提案する。
論文 参考訳(メタデータ) (2022-11-29T16:54:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。