論文の概要: DATID-3D: Diversity-Preserved Domain Adaptation Using Text-to-Image
Diffusion for 3D Generative Model
- arxiv url: http://arxiv.org/abs/2211.16374v1
- Date: Tue, 29 Nov 2022 16:54:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 15:02:35.692756
- Title: DATID-3D: Diversity-Preserved Domain Adaptation Using Text-to-Image
Diffusion for 3D Generative Model
- Title(参考訳): DATID-3D:3次元生成モデルのためのテキスト・画像拡散を用いた多様性保存領域適応
- Authors: Gwanghyun Kim and Se Young Chun
- Abstract要約: 3次元生成モデルは、高解像度のフォトリアリスティック画像をビュー一貫性と詳細な3次元形状で合成する際、顕著な性能を達成した。
テキスト誘導型ドメイン適応法は、あるドメイン上の2次元生成モデルを異なるスタイルの他のドメイン上のモデルに変換する際、顕著な性能を示した。
本稿では,テキスト・ツー・イメージ拡散モデルを用いた3次元生成モデルに適したドメイン適応手法であるDATID-3Dを提案する。
- 参考スコア(独自算出の注目度): 18.362036050304987
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent 3D generative models have achieved remarkable performance in
synthesizing high resolution photorealistic images with view consistency and
detailed 3D shapes, but training them for diverse domains is challenging since
it requires massive training images and their camera distribution information.
Text-guided domain adaptation methods have shown impressive performance on
converting the 2D generative model on one domain into the models on other
domains with different styles by leveraging the CLIP (Contrastive
Language-Image Pre-training), rather than collecting massive datasets for those
domains. However, one drawback of them is that the sample diversity in the
original generative model is not well-preserved in the domain-adapted
generative models due to the deterministic nature of the CLIP text encoder.
Text-guided domain adaptation will be even more challenging for 3D generative
models not only because of catastrophic diversity loss, but also because of
inferior text-image correspondence and poor image quality. Here we propose
DATID-3D, a domain adaptation method tailored for 3D generative models using
text-to-image diffusion models that can synthesize diverse images per text
prompt without collecting additional images and camera information for the
target domain. Unlike 3D extensions of prior text-guided domain adaptation
methods, our novel pipeline was able to fine-tune the state-of-the-art 3D
generator of the source domain to synthesize high resolution, multi-view
consistent images in text-guided targeted domains without additional data,
outperforming the existing text-guided domain adaptation methods in diversity
and text-image correspondence. Furthermore, we propose and demonstrate diverse
3D image manipulations such as one-shot instance-selected adaptation and
single-view manipulated 3D reconstruction to fully enjoy diversity in text.
- Abstract(参考訳): 近年の3次元生成モデルは、高分解能フォトリアリスティック画像の表示一貫性と詳細な3d形状による合成において顕著な性能を発揮しているが、大量のトレーニング画像とそのカメラ分布情報を必要とするため、多様な領域での訓練は困難である。
テキスト誘導型ドメイン適応法は,CLIP(Contrastive Language- Image Pre-training)を活用して,あるドメインの2次元生成モデルを他のドメインのモデルに変換するという,優れた性能を示している。
しかし、その欠点の一つは、CLIPテキストエンコーダの決定論的性質のため、元の生成モデルにおけるサンプルの多様性がドメイン適応生成モデルでは十分に保存されていないことである。
テキスト誘導ドメイン適応は、破滅的な多様性の喪失だけでなく、テキスト画像の対応の劣りや画像品質の低下により、3D生成モデルにとってさらに困難になる。
本稿では,テキスト間拡散モデルを用いた3次元生成モデルに適したドメイン適応手法であるDATID-3Dを提案する。
従来のテキスト誘導ドメイン適応手法の3D拡張とは異なり、我々の新しいパイプラインはソースドメインの最先端の3Dジェネレータを微調整し、テキスト誘導ターゲットドメインの高解像度で多視点一貫した画像を追加データなしで合成することができ、既存のテキスト誘導ドメイン適応手法よりも多様性とテキストイメージ対応性が高い。
さらに,テキストの多様性を十分に享受するために,ワンショットのインスタンス選択適応やシングルビューの3D再構成などの多様な3D画像操作を提案する。
関連論文リスト
- DreamPolish: Domain Score Distillation With Progressive Geometry Generation [66.94803919328815]
本稿では,高精細な幾何学と高品質なテクスチャの創出に優れたテキスト・ツー・3D生成モデルであるDreamPolishを紹介する。
幾何構成フェーズでは, 合成過程の安定性を高めるために, 複数のニューラル表現を利用する。
テクスチャ生成フェーズでは、そのような領域に向けて神経表現を導くために、新しいスコア蒸留、すなわちドメインスコア蒸留(DSD)を導入する。
論文 参考訳(メタデータ) (2024-11-03T15:15:01Z) - 3D-VirtFusion: Synthetic 3D Data Augmentation through Generative Diffusion Models and Controllable Editing [52.68314936128752]
本研究では,事前学習された大規模基盤モデルのパワーを活用して,3次元ラベル付きトレーニングデータを自動的に生成する新しいパラダイムを提案する。
各ターゲットセマンティッククラスに対して、まず、拡散モデルとチャットGPT生成したテキストプロンプトを介して、様々な構造と外観の1つのオブジェクトの2D画像を生成する。
我々は、これらの拡張画像を3Dオブジェクトに変換し、ランダムな合成によって仮想シーンを構築する。
論文 参考訳(メタデータ) (2024-08-25T09:31:22Z) - Grounded Compositional and Diverse Text-to-3D with Pretrained Multi-View Diffusion Model [65.58911408026748]
複雑な合成文のプロンプトを正確に追従できる3Dアセットを生成するために,グラウンドド・ドレーマーを提案する。
まず,テキスト・ツー・3Dパイプラインのボトルネックとして,テキスト誘導4視点画像の活用を提唱する。
次に,テキストアラインな4ビュー画像生成を促すための注意再焦点機構を導入する。
論文 参考訳(メタデータ) (2024-04-28T04:05:10Z) - Make-Your-3D: Fast and Consistent Subject-Driven 3D Content Generation [12.693847842218604]
5分以内に高忠実で一貫した3Dコンテンツをパーソナライズできる新しい3Dカスタマイズ手法「Make-Your-3D」を導入する。
我々の重要な洞察は、多視点拡散モデルとアイデンティティ特異的な2次元生成モデルの分布を調和させ、所望の3次元対象の分布と整合させることである。
提案手法は,高画質で一貫した,かつ主観的な3Dコンテンツを生成することができる。
論文 参考訳(メタデータ) (2024-03-14T17:57:04Z) - ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。
我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文 参考訳(メタデータ) (2024-03-04T07:57:05Z) - DiffusionGAN3D: Boosting Text-guided 3D Generation and Domain Adaptation by Combining 3D GANs and Diffusion Priors [26.0337715783954]
DiffusionGAN3Dは、3D GANと拡散前処理を組み合わせることで、テキスト誘導型3Dドメイン適応と生成を促進する。
提案フレームワークはドメイン適応とテキスト・トゥ・アバタータスクの両方において優れた結果が得られる。
論文 参考訳(メタデータ) (2023-12-28T05:46:26Z) - IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。
我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。
組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文 参考訳(メタデータ) (2023-08-22T14:39:17Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - PODIA-3D: Domain Adaptation of 3D Generative Model Across Large Domain
Gap Using Pose-Preserved Text-to-Image Diffusion [15.543034329968465]
ポーズ保存されたテキストから画像への拡散に基づくドメイン適応を3次元生成モデルに適用するPODIA-3Dを提案する。
また, 生成したサンプルの詳細な情報を改善するため, 特殊・汎用的なサンプリング手法を提案する。
提案手法は,テキスト画像対応,リアリズム,レンダリング画像の多様性,および生成したサンプルの3次元形状の深さ感の観点から,既存の3次元テキスト誘導ドメイン適応法よりも優れる。
論文 参考訳(メタデータ) (2023-04-04T15:49:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。