Fugu-MT 論文翻訳(概要): GCA-3D: Towards Generalized and Consistent Domain Adaptation of 3D Generators

論文の概要: GCA-3D: Towards Generalized and Consistent Domain Adaptation of 3D Generators

arxiv url: http://arxiv.org/abs/2412.15491v1
Date: Fri, 20 Dec 2024 02:13:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-23 18:46:08.768795
Title: GCA-3D: Towards Generalized and Consistent Domain Adaptation of 3D Generators
Title（参考訳）: GCA-3D:3次元発電機の一般領域適応に向けて
Authors: Hengjia Li, Yang Liu, Yibo Zhao, Haoran Cheng, Yang Yang, Linxuan Xia, Zekai Luo, Qibo Qiu, Boxi Wu, Tu Zheng, Zheng Yang, Deng Cai,
Abstract要約: GCA-3Dはデータ生成の複雑なパイプラインを使わずに汎用的で一貫した3Dドメイン適応法である。我々は,非逆方向の3次元生成モデルに効率よく適応するために,多モード深度対応型スコア蒸留サンプリング損失を導入する。実験により, GCA-3Dは, 効率, 一般化, 精度, アイデンティティの整合性の観点から, 従来の手法よりも優れていた。
参考スコア（独自算出の注目度）: 24.67369444661137
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently, 3D generative domain adaptation has emerged to adapt the pre-trained generator to other domains without collecting massive datasets and camera pose distributions. Typically, they leverage large-scale pre-trained text-to-image diffusion models to synthesize images for the target domain and then fine-tune the 3D model. However, they suffer from the tedious pipeline of data generation, which inevitably introduces pose bias between the source domain and synthetic dataset. Furthermore, they are not generalized to support one-shot image-guided domain adaptation, which is more challenging due to the more severe pose bias and additional identity bias introduced by the single image reference. To address these issues, we propose GCA-3D, a generalized and consistent 3D domain adaptation method without the intricate pipeline of data generation. Different from previous pipeline methods, we introduce multi-modal depth-aware score distillation sampling loss to efficiently adapt 3D generative models in a non-adversarial manner. This multi-modal loss enables GCA-3D in both text prompt and one-shot image prompt adaptation. Besides, it leverages per-instance depth maps from the volume rendering module to mitigate the overfitting problem and retain the diversity of results. To enhance the pose and identity consistency, we further propose a hierarchical spatial consistency loss to align the spatial structure between the generated images in the source and target domain. Experiments demonstrate that GCA-3D outperforms previous methods in terms of efficiency, generalization, pose accuracy, and identity consistency.
Abstract（参考訳）: 近年、3D生成領域適応が出現し、大量のデータセットやカメラポーズの分布を収集することなく、事前学習されたジェネレータを他のドメインに適応させている。通常、それらは大規模に訓練されたテキストと画像の拡散モデルを利用して、ターゲット領域の画像を合成し、3Dモデルを微調整する。しかし、ソースドメインと合成データセットの間に必然的にポーズバイアスをもたらすデータ生成の退屈なパイプラインに苦しむ。さらに、単一の画像参照によって導入されたより厳しいポーズバイアスと追加のアイデンティティバイアスのため、より難しいワンショット画像誘導ドメイン適応をサポートするように一般化されていない。これらの問題に対処するために,データ生成の複雑なパイプラインを使わずに,汎用的で一貫した3次元ドメイン適応法であるGAA-3Dを提案する。従来のパイプライン法と異なり,非逆方向の3次元生成モデルに効率よく適応するために,多モード深度対応型スコア蒸留サンプリング損失を導入する。このマルチモーダルロスにより、テキストプロンプトとワンショット画像プロンプトの双方でGCA-3Dを適用できる。さらに、ボリュームレンダリングモジュールからのインスタンスごとの深度マップを活用して、オーバーフィッティング問題を緩和し、結果の多様性を維持する。さらに、ポーズとアイデンティティの整合性を高めるために、生成した画像と対象領域の空間構造を整合させる階層的空間整合性損失を提案する。実験により, GCA-3Dは, 効率, 一般化, 精度, アイデンティティの整合性の観点から, 従来の手法よりも優れていた。

関連論文リスト

Zero-1-to-G: Taming Pretrained 2D Diffusion Model for Direct 3D Generation [66.75243908044538]
我々は,事前学習した2次元拡散モデルを用いたガウススプラット上での3次元直接生成手法であるZero-1-to-Gを導入する。 3D認識を取り入れるために,複雑な相関関係を捉え,生成されたスプラット間の3D一貫性を強制する,クロスビュー層とクロスアトリビュートアテンション層を導入する。これにより、Zero-1-to-Gは、事前訓練された2D拡散前処理を効果的に活用する最初の直接画像から3D生成モデルとなり、効率的なトレーニングと未確認物体への一般化が実現された。
論文参考訳（メタデータ） (2025-01-09T18:37:35Z)
DSplats: 3D Generation by Denoising Splats-Based Multiview Diffusion Models [67.50989119438508]
本稿では,ガウスをベースとしたレコンストラクタを用いて,リアルな3Dアセットを生成することで,マルチビュー画像を直接認識するDSplatを紹介した。実験の結果,DSplatsは高品質で空間的に一貫した出力を生成できるだけでなく,単一画像から3次元再構成への新たな標準も設定できることがわかった。
論文参考訳（メタデータ） (2024-12-11T07:32:17Z)
GeoWizard: Unleashing the Diffusion Priors for 3D Geometry Estimation from a Single Image [94.56927147492738]
単一画像から幾何学的属性を推定するための新しい生成基盤モデルであるGeoWizardを紹介する。拡散前処理の活用は,資源利用における一般化,詳細な保存,効率性を著しく向上させることが示唆された。本稿では,様々なシーンの複雑なデータ分布を,個別のサブディストリビューションに分離する,シンプルかつ効果的な戦略を提案する。
論文参考訳（メタデータ） (2024-03-18T17:50:41Z)
Cross-domain and Cross-dimension Learning for Image-to-Graph Transformers [48.74331852418905]
直接画像からグラフへの変換は、1つのモデルで物体の検出と関係予測を解くことを伴う課題である。このタスクの複雑さのため、多くのドメインで大規模なトレーニングデータセットはまれであり、ディープラーニングメソッドのトレーニングを困難にしている。画像-グラフ変換器のクロスドメインおよびクロス次元学習を可能にする一連の手法を提案する。
論文参考訳（メタデータ） (2024-03-11T10:48:56Z)
Source-Free and Image-Only Unsupervised Domain Adaptation for Category Level Object Pose Estimation [18.011044932979143]
3DUDAは、3Dや深度データを使わずに、ニュアンスドライデンのターゲットドメインに適応できる手法である。対象のカテゴリを単純な立方体メッシュとして表現し、ニューラル特徴活性化の生成モデルを利用する。本手法は,グローバルな擬似ラベル付きデータセットの微調整を軽度な仮定でシミュレートする。
論文参考訳（メタデータ） (2024-01-19T17:48:05Z)
PODIA-3D: Domain Adaptation of 3D Generative Model Across Large Domain Gap Using Pose-Preserved Text-to-Image Diffusion [15.543034329968465]
ポーズ保存されたテキストから画像への拡散に基づくドメイン適応を3次元生成モデルに適用するPODIA-3Dを提案する。また, 生成したサンプルの詳細な情報を改善するため, 特殊・汎用的なサンプリング手法を提案する。提案手法は,テキスト画像対応,リアリズム,レンダリング画像の多様性,および生成したサンプルの3次元形状の深さ感の観点から,既存の3次元テキスト誘導ドメイン適応法よりも優れる。
論文参考訳（メタデータ） (2023-04-04T15:49:01Z)
NeRF-GAN Distillation for Efficient 3D-Aware Generation with Convolutions [97.27105725738016]
GAN(Generative Adversarial Networks)のようなニューラルラジアンスフィールド(NeRF)と生成モデルの統合は、単一ビュー画像から3D認識生成を変換した。提案手法は,ポーズ条件付き畳み込みネットワークにおいて,事前学習したNeRF-GANの有界遅延空間を再利用し,基礎となる3次元表現に対応する3D一貫性画像を直接生成する手法である。
論文参考訳（メタデータ） (2023-03-22T18:59:48Z)
DATID-3D: Diversity-Preserved Domain Adaptation Using Text-to-Image Diffusion for 3D Generative Model [18.362036050304987]
3次元生成モデルは、高解像度のフォトリアリスティック画像をビュー一貫性と詳細な3次元形状で合成する際、顕著な性能を達成した。テキスト誘導型ドメイン適応法は、あるドメイン上の2次元生成モデルを異なるスタイルの他のドメイン上のモデルに変換する際、顕著な性能を示した。本稿では,テキスト・ツー・イメージ拡散モデルを用いた3次元生成モデルに適したドメイン適応手法であるDATID-3Dを提案する。
論文参考訳（メタデータ） (2022-11-29T16:54:34Z)
Towards Model Generalization for Monocular 3D Object Detection [57.25828870799331]
我々は,Mono3Dオブジェクト検出に有効な統合カメラ一般化パラダイム(CGP)を提案する。また,インスタンスレベルの拡張によりギャップを埋める2D-3D幾何一貫性オブジェクトスケーリング戦略(GCOS)を提案する。 DGMono3Dと呼ばれる手法は、評価された全てのデータセットに対して顕著な性能を達成し、SoTAの教師なしドメイン適応スキームを上回ります。
論文参考訳（メタデータ） (2022-05-23T23:05:07Z)
Unsupervised Geodesic-preserved Generative Adversarial Networks for Unconstrained 3D Pose Transfer [84.04540436494011]
任意の任意の任意の3次元メッシュ間のポーズ転送を行うための教師なしアプローチを提案する。具体的には、内因性(形状)と外因性(ポーズ)の情報保存について、新規な内因性-外因性保存生成ネットワーク(IEP-GAN)を提示する。提案手法は,最近の最先端手法と比較して,より優れた結果が得られ,より効率的である。
論文参考訳（メタデータ） (2021-08-17T09:08:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。