論文の概要: GANFusion: Feed-Forward Text-to-3D with Diffusion in GAN Space
- arxiv url: http://arxiv.org/abs/2412.16717v1
- Date: Sat, 21 Dec 2024 17:59:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:53:20.667154
- Title: GANFusion: Feed-Forward Text-to-3D with Diffusion in GAN Space
- Title(参考訳): GANフュージョン:GAN空間における拡散を伴うフィードフォワードテキストから3D
- Authors: Souhaib Attaiki, Paul Guerrero, Duygu Ceylan, Niloy J. Mitra, Maks Ovsjanikov,
- Abstract要約: 我々は、単一視点2Dデータのみを用いて、人間の文字に対するフィードフォワードテキストから3D拡散生成器を訓練する。
GANFusionは、単一のビュー2DデータのみをトレーニングしたGANアーキテクチャを使用して、3Dデータの無条件トリプレーン機能を生成することから始まる。
- 参考スコア(独自算出の注目度): 64.82017974849697
- License:
- Abstract: We train a feed-forward text-to-3D diffusion generator for human characters using only single-view 2D data for supervision. Existing 3D generative models cannot yet match the fidelity of image or video generative models. State-of-the-art 3D generators are either trained with explicit 3D supervision and are thus limited by the volume and diversity of existing 3D data. Meanwhile, generators that can be trained with only 2D data as supervision typically produce coarser results, cannot be text-conditioned, or must revert to test-time optimization. We observe that GAN- and diffusion-based generators have complementary qualities: GANs can be trained efficiently with 2D supervision to produce high-quality 3D objects but are hard to condition on text. In contrast, denoising diffusion models can be conditioned efficiently but tend to be hard to train with only 2D supervision. We introduce GANFusion, which starts by generating unconditional triplane features for 3D data using a GAN architecture trained with only single-view 2D data. We then generate random samples from the GAN, caption them, and train a text-conditioned diffusion model that directly learns to sample from the space of good triplane features that can be decoded into 3D objects.
- Abstract(参考訳): 我々は、単一視点2Dデータのみを用いて、人間の文字に対するフィードフォワードテキストから3D拡散生成器を訓練する。
既存の3D生成モデルは、画像またはビデオ生成モデルの忠実度にはまだ一致しない。
最先端の3Dジェネレータは、明示的な3D監視で訓練されるか、既存の3Dデータの量と多様性によって制限される。
一方、2Dデータのみを教師としてトレーニングできるジェネレータは、通常は粗い結果を生成し、テキストコンディショニングができないか、テスト時の最適化に戻らなければならない。
GANは高品位な3Dオブジェクトを生成するために2Dの監督で効率的に訓練することができるが、テキスト上での条件付けは困難である。
対照的に、拡散モデルの偏執は効率的に行うことができるが、2次元の監督だけでは訓練が難しい傾向がある。
GANFusionを導入し、単一のビュー2DデータのみをトレーニングしたGANアーキテクチャを用いて、3Dデータの非条件トリプレーン特徴を生成する。
そして、GANからランダムなサンプルを生成し、それをキャプションし、テキスト条件の拡散モデルを訓練し、3Dオブジェクトにデコードできる良い三葉飛行機の特徴の空間から直接サンプルを学習する。
関連論文リスト
- DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - 3DTopia: Large Text-to-3D Generation Model with Hybrid Diffusion Priors [85.11117452560882]
本稿では,2段階のテキスト・ツー・3D生成システムである3DTopiaについて述べる。
3次元データから直接学習される3次元拡散の第1段階のサンプルは、テキスト条件付き3次元潜伏拡散モデルを用いており、高速なプロトタイピングのための粗い3次元サンプルを迅速に生成する。
第2段階は2次元拡散前処理を利用して、粗い3次元モデルのテクスチャを第1段階からさらに洗練し、高品質なテクスチャ生成のための潜時空間と画素空間の最適化からなる。
論文 参考訳(メタデータ) (2024-03-04T17:26:28Z) - Text-Image Conditioned Diffusion for Consistent Text-to-3D Generation [28.079441901818296]
我々は,粒度の細かい視野の整合性を明示したNeRF(Neural Radiance Fields)のテキスト・ツー・3D手法を提案する。
本手法は,既存のテキスト・ツー・3D法に対して最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-12-19T01:09:49Z) - GaussianDreamer: Fast Generation from Text to 3D Gaussians by Bridging 2D and 3D Diffusion Models [102.22388340738536]
2Dおよび3D拡散モデルは、プロンプトに基づいて適切な3Dオブジェクトを生成することができる。
3次元拡散モデルには優れた3次元整合性があるが、トレーニング可能な3次元データは高価で入手が難しいため、その品質と一般化は制限されている。
本稿では,2種類の拡散モデルから近年の明示的かつ効率的な3次元ガウススプラッティング表現を通じて電力を橋渡ししようとする。
論文 参考訳(メタデータ) (2023-10-12T17:22:24Z) - Control3Diff: Learning Controllable 3D Diffusion Models from Single-view
Images [70.17085345196583]
Control3Diffは拡散モデルと3D GANの強みを組み合わせた3次元拡散モデルである。
FFHQ,AFHQ,ShapeNet などの標準画像生成ベンチマークにおける Control3Diff の有効性を検証する。
論文 参考訳(メタデータ) (2023-04-13T17:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。