論文の概要: GCA-3D: Towards Generalized and Consistent Domain Adaptation of 3D Generators
- arxiv url: http://arxiv.org/abs/2412.15491v1
- Date: Fri, 20 Dec 2024 02:13:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:24:03.705621
- Title: GCA-3D: Towards Generalized and Consistent Domain Adaptation of 3D Generators
- Title(参考訳): GCA-3D:3次元発電機の一般領域適応に向けて
- Authors: Hengjia Li, Yang Liu, Yibo Zhao, Haoran Cheng, Yang Yang, Linxuan Xia, Zekai Luo, Qibo Qiu, Boxi Wu, Tu Zheng, Zheng Yang, Deng Cai,
- Abstract要約: GCA-3Dはデータ生成の複雑なパイプラインを使わずに汎用的で一貫した3Dドメイン適応法である。
我々は,非逆方向の3次元生成モデルに効率よく適応するために,多モード深度対応型スコア蒸留サンプリング損失を導入する。
実験により, GCA-3Dは, 効率, 一般化, 精度, アイデンティティの整合性の観点から, 従来の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 24.67369444661137
- License:
- Abstract: Recently, 3D generative domain adaptation has emerged to adapt the pre-trained generator to other domains without collecting massive datasets and camera pose distributions. Typically, they leverage large-scale pre-trained text-to-image diffusion models to synthesize images for the target domain and then fine-tune the 3D model. However, they suffer from the tedious pipeline of data generation, which inevitably introduces pose bias between the source domain and synthetic dataset. Furthermore, they are not generalized to support one-shot image-guided domain adaptation, which is more challenging due to the more severe pose bias and additional identity bias introduced by the single image reference. To address these issues, we propose GCA-3D, a generalized and consistent 3D domain adaptation method without the intricate pipeline of data generation. Different from previous pipeline methods, we introduce multi-modal depth-aware score distillation sampling loss to efficiently adapt 3D generative models in a non-adversarial manner. This multi-modal loss enables GCA-3D in both text prompt and one-shot image prompt adaptation. Besides, it leverages per-instance depth maps from the volume rendering module to mitigate the overfitting problem and retain the diversity of results. To enhance the pose and identity consistency, we further propose a hierarchical spatial consistency loss to align the spatial structure between the generated images in the source and target domain. Experiments demonstrate that GCA-3D outperforms previous methods in terms of efficiency, generalization, pose accuracy, and identity consistency.
- Abstract(参考訳): 近年、3D生成領域適応が出現し、大量のデータセットやカメラポーズの分布を収集することなく、事前学習されたジェネレータを他のドメインに適応させている。
通常、それらは大規模に訓練されたテキストと画像の拡散モデルを利用して、ターゲット領域の画像を合成し、3Dモデルを微調整する。
しかし、ソースドメインと合成データセットの間に必然的にポーズバイアスをもたらすデータ生成の退屈なパイプラインに苦しむ。
さらに、単一の画像参照によって導入されたより厳しいポーズバイアスと追加のアイデンティティバイアスのため、より難しいワンショット画像誘導ドメイン適応をサポートするように一般化されていない。
これらの問題に対処するために,データ生成の複雑なパイプラインを使わずに,汎用的で一貫した3次元ドメイン適応法であるGAA-3Dを提案する。
従来のパイプライン法と異なり,非逆方向の3次元生成モデルに効率よく適応するために,多モード深度対応型スコア蒸留サンプリング損失を導入する。
このマルチモーダルロスにより、テキストプロンプトとワンショット画像プロンプトの双方でGCA-3Dを適用できる。
さらに、ボリュームレンダリングモジュールからのインスタンスごとの深度マップを活用して、オーバーフィッティング問題を緩和し、結果の多様性を維持する。
さらに、ポーズとアイデンティティの整合性を高めるために、生成した画像と対象領域の空間構造を整合させる階層的空間整合性損失を提案する。
実験により, GCA-3Dは, 効率, 一般化, 精度, アイデンティティの整合性の観点から, 従来の手法よりも優れていた。
関連論文リスト
- GeoWizard: Unleashing the Diffusion Priors for 3D Geometry Estimation from a Single Image [94.56927147492738]
単一画像から幾何学的属性を推定するための新しい生成基盤モデルであるGeoWizardを紹介する。
拡散前処理の活用は,資源利用における一般化,詳細な保存,効率性を著しく向上させることが示唆された。
本稿では,様々なシーンの複雑なデータ分布を,個別のサブディストリビューションに分離する,シンプルかつ効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-03-18T17:50:41Z) - Cross-domain and Cross-dimension Learning for Image-to-Graph Transformers [48.74331852418905]
直接画像からグラフへの変換は、1つのモデルで物体の検出と関係予測を解くことを伴う課題である。
このタスクの複雑さのため、多くのドメインで大規模なトレーニングデータセットはまれであり、ディープラーニングメソッドのトレーニングを困難にしている。
画像-グラフ変換器のクロスドメインおよびクロス次元学習を可能にする一連の手法を提案する。
論文 参考訳(メタデータ) (2024-03-11T10:48:56Z) - Source-Free and Image-Only Unsupervised Domain Adaptation for Category
Level Object Pose Estimation [18.011044932979143]
3DUDAは、3Dや深度データを使わずに、ニュアンスドライデンのターゲットドメインに適応できる手法である。
対象のカテゴリを単純な立方体メッシュとして表現し、ニューラル特徴活性化の生成モデルを利用する。
本手法は,グローバルな擬似ラベル付きデータセットの微調整を軽度な仮定でシミュレートする。
論文 参考訳(メタデータ) (2024-01-19T17:48:05Z) - IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。
我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。
組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文 参考訳(メタデータ) (2023-08-22T14:39:17Z) - PODIA-3D: Domain Adaptation of 3D Generative Model Across Large Domain
Gap Using Pose-Preserved Text-to-Image Diffusion [15.543034329968465]
ポーズ保存されたテキストから画像への拡散に基づくドメイン適応を3次元生成モデルに適用するPODIA-3Dを提案する。
また, 生成したサンプルの詳細な情報を改善するため, 特殊・汎用的なサンプリング手法を提案する。
提案手法は,テキスト画像対応,リアリズム,レンダリング画像の多様性,および生成したサンプルの3次元形状の深さ感の観点から,既存の3次元テキスト誘導ドメイン適応法よりも優れる。
論文 参考訳(メタデータ) (2023-04-04T15:49:01Z) - NeRF-GAN Distillation for Efficient 3D-Aware Generation with
Convolutions [97.27105725738016]
GAN(Generative Adversarial Networks)のようなニューラルラジアンスフィールド(NeRF)と生成モデルの統合は、単一ビュー画像から3D認識生成を変換した。
提案手法は,ポーズ条件付き畳み込みネットワークにおいて,事前学習したNeRF-GANの有界遅延空間を再利用し,基礎となる3次元表現に対応する3D一貫性画像を直接生成する手法である。
論文 参考訳(メタデータ) (2023-03-22T18:59:48Z) - DATID-3D: Diversity-Preserved Domain Adaptation Using Text-to-Image
Diffusion for 3D Generative Model [18.362036050304987]
3次元生成モデルは、高解像度のフォトリアリスティック画像をビュー一貫性と詳細な3次元形状で合成する際、顕著な性能を達成した。
テキスト誘導型ドメイン適応法は、あるドメイン上の2次元生成モデルを異なるスタイルの他のドメイン上のモデルに変換する際、顕著な性能を示した。
本稿では,テキスト・ツー・イメージ拡散モデルを用いた3次元生成モデルに適したドメイン適応手法であるDATID-3Dを提案する。
論文 参考訳(メタデータ) (2022-11-29T16:54:34Z) - Towards Model Generalization for Monocular 3D Object Detection [57.25828870799331]
我々は,Mono3Dオブジェクト検出に有効な統合カメラ一般化パラダイム(CGP)を提案する。
また,インスタンスレベルの拡張によりギャップを埋める2D-3D幾何一貫性オブジェクトスケーリング戦略(GCOS)を提案する。
DGMono3Dと呼ばれる手法は、評価された全てのデータセットに対して顕著な性能を達成し、SoTAの教師なしドメイン適応スキームを上回ります。
論文 参考訳(メタデータ) (2022-05-23T23:05:07Z) - Unsupervised Geodesic-preserved Generative Adversarial Networks for
Unconstrained 3D Pose Transfer [84.04540436494011]
任意の任意の任意の3次元メッシュ間のポーズ転送を行うための教師なしアプローチを提案する。
具体的には、内因性(形状)と外因性(ポーズ)の情報保存について、新規な内因性-外因性保存生成ネットワーク(IEP-GAN)を提示する。
提案手法は,最近の最先端手法と比較して,より優れた結果が得られ,より効率的である。
論文 参考訳(メタデータ) (2021-08-17T09:08:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。