論文の概要: 3DTopia: Large Text-to-3D Generation Model with Hybrid Diffusion Priors
- arxiv url: http://arxiv.org/abs/2403.02234v2
- Date: Tue, 7 May 2024 03:25:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 19:23:11.157238
- Title: 3DTopia: Large Text-to-3D Generation Model with Hybrid Diffusion Priors
- Title(参考訳): 3DTopia:ハイブリッド拡散プリミティブを用いた大規模テキスト・ツー・3D生成モデル
- Authors: Fangzhou Hong, Jiaxiang Tang, Ziang Cao, Min Shi, Tong Wu, Zhaoxi Chen, Shuai Yang, Tengfei Wang, Liang Pan, Dahua Lin, Ziwei Liu,
- Abstract要約: 本稿では,2段階のテキスト・ツー・3D生成システムである3DTopiaについて述べる。
3次元データから直接学習される3次元拡散の第1段階のサンプルは、テキスト条件付き3次元潜伏拡散モデルを用いており、高速なプロトタイピングのための粗い3次元サンプルを迅速に生成する。
第2段階は2次元拡散前処理を利用して、粗い3次元モデルのテクスチャを第1段階からさらに洗練し、高品質なテクスチャ生成のための潜時空間と画素空間の最適化からなる。
- 参考スコア(独自算出の注目度): 85.11117452560882
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present a two-stage text-to-3D generation system, namely 3DTopia, which generates high-quality general 3D assets within 5 minutes using hybrid diffusion priors. The first stage samples from a 3D diffusion prior directly learned from 3D data. Specifically, it is powered by a text-conditioned tri-plane latent diffusion model, which quickly generates coarse 3D samples for fast prototyping. The second stage utilizes 2D diffusion priors to further refine the texture of coarse 3D models from the first stage. The refinement consists of both latent and pixel space optimization for high-quality texture generation. To facilitate the training of the proposed system, we clean and caption the largest open-source 3D dataset, Objaverse, by combining the power of vision language models and large language models. Experiment results are reported qualitatively and quantitatively to show the performance of the proposed system. Our codes and models are available at https://github.com/3DTopia/3DTopia
- Abstract(参考訳): 本稿では,2段階のテキスト・ツー・3D生成システムである3DTopiaについて述べる。
最初のステージは、3Dデータから直接学習される前に3D拡散からサンプリングされる。
具体的には、テキスト条件付き3次元潜伏拡散モデルを用いて、高速なプロトタイピングのための粗い3Dサンプルを迅速に生成する。
第2段階は、第1段階から粗い3Dモデルのテクスチャをさらに洗練するために、2次元拡散先行を利用している。
精細化は、高品質なテクスチャ生成のための潜時空間とピクセル空間の最適化の両方から成っている。
提案手法の学習を容易にするため,視覚言語モデルと大規模言語モデルを組み合わせることで,最大規模のオープンソース3DデータセットであるObjaverseをクリーン・キャプションする。
実験結果を質的,定量的に報告し,提案システムの性能を示す。
私たちのコードとモデルはhttps://github.com/3DTopia/3DTopiaで利用可能です。
関連論文リスト
- DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - PI3D: Efficient Text-to-3D Generation with Pseudo-Image Diffusion [18.82883336156591]
本稿では,テキストプロンプトから高品質な3D形状を数分で生成する,事前学習されたテキスト・画像拡散モデルの能力をフル活用するフレームワークPI3Dを提案する。
PI3Dはテキストからわずか3分で1つの3D形状を生成し、その品質は既存の3D生成モデルよりも大きなマージンで優れていることが検証される。
論文 参考訳(メタデータ) (2023-12-14T16:04:34Z) - TPA3D: Triplane Attention for Fast Text-to-3D Generation [28.33270078863519]
テキスト誘導型3次元生成(TPA3D)のためのトライプレーンアテンションを提案する。
TPA3Dは、高速テキストから3D生成のための、エンドツーエンドのトレーニング可能なGANベースのディープラーニングモデルである。
TPA3Dは, きめ細かい記述と整合した高品質な3次元テクスチャ形状を生成する。
論文 参考訳(メタデータ) (2023-12-05T10:39:37Z) - Instant3D: Fast Text-to-3D with Sparse-View Generation and Large
Reconstruction Model [68.98311213582949]
テキストプロンプトから高品質で多様な3Dアセットをフィードフォワードで生成する新しい手法であるInstant3Dを提案する。
提案手法は,従来の最適化手法よりも2桁早く,20秒以内に高画質の多種多様な3Dアセットを生成できる。
論文 参考訳(メタデータ) (2023-11-10T18:03:44Z) - GaussianDreamer: Fast Generation from Text to 3D Gaussians by Bridging 2D and 3D Diffusion Models [102.22388340738536]
2Dおよび3D拡散モデルは、プロンプトに基づいて適切な3Dオブジェクトを生成することができる。
3次元拡散モデルには優れた3次元整合性があるが、トレーニング可能な3次元データは高価で入手が難しいため、その品質と一般化は制限されている。
本稿では,2種類の拡散モデルから近年の明示的かつ効率的な3次元ガウススプラッティング表現を通じて電力を橋渡ししようとする。
論文 参考訳(メタデータ) (2023-10-12T17:22:24Z) - EfficientDreamer: High-Fidelity and Robust 3D Creation via Orthogonal-view Diffusion Prior [59.25950280610409]
直交ビュー画像誘導を利用した高画質な3Dコンテンツ生成パイプラインを提案する。
本稿では,与えられたテキストプロンプトに基づいて4つのサブイメージからなる画像を生成する2次元拡散モデルを提案する。
また,生成した3Dコンテンツの詳細をさらに改善する3D合成ネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-25T07:39:26Z) - DreamFusion: Text-to-3D using 2D Diffusion [52.52529213936283]
テキストと画像の合成の最近の進歩は、何十億もの画像と画像のペアで訓練された拡散モデルによって引き起こされている。
本研究では,事前訓練された2次元テキスト・ツー・イメージ拡散モデルを用いてテキスト・ツー・3次元合成を行うことにより,これらの制約を回避する。
提案手法では,3次元トレーニングデータや画像拡散モデルの変更は必要とせず,事前訓練した画像拡散モデルの有効性を実証する。
論文 参考訳(メタデータ) (2022-09-29T17:50:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。