論文の概要: 3DTopia: Large Text-to-3D Generation Model with Hybrid Diffusion Priors
- arxiv url: http://arxiv.org/abs/2403.02234v1
- Date: Mon, 4 Mar 2024 17:26:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 17:57:34.432540
- Title: 3DTopia: Large Text-to-3D Generation Model with Hybrid Diffusion Priors
- Title(参考訳): 3dtopia:ハイブリッド拡散優先を持つ大規模テキストから3d生成モデル
- Authors: Fangzhou Hong, Jiaxiang Tang, Ziang Cao, Min Shi, Tong Wu, Zhaoxi
Chen, Tengfei Wang, Liang Pan, Dahua Lin, Ziwei Liu
- Abstract要約: 本稿では,2段階のテキスト・ツー・3D生成システムである3DTopiaについて述べる。
3次元データから直接学習される3次元拡散の第1段階のサンプルは、テキスト条件付き3次元潜伏拡散モデルを用いており、高速なプロトタイピングのための粗い3次元サンプルを迅速に生成する。
第2段階は2次元拡散前処理を利用して、粗い3次元モデルのテクスチャを第1段階からさらに洗練し、高品質なテクスチャ生成のための潜時空間と画素空間の最適化からなる。
- 参考スコア(独自算出の注目度): 86.31822685078642
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present a two-stage text-to-3D generation system, namely 3DTopia, which
generates high-quality general 3D assets within 5 minutes using hybrid
diffusion priors. The first stage samples from a 3D diffusion prior directly
learned from 3D data. Specifically, it is powered by a text-conditioned
tri-plane latent diffusion model, which quickly generates coarse 3D samples for
fast prototyping. The second stage utilizes 2D diffusion priors to further
refine the texture of coarse 3D models from the first stage. The refinement
consists of both latent and pixel space optimization for high-quality texture
generation. To facilitate the training of the proposed system, we clean and
caption the largest open-source 3D dataset, Objaverse, by combining the power
of vision language models and large language models. Experiment results are
reported qualitatively and quantitatively to show the performance of the
proposed system. Our codes and models are available at
https://github.com/3DTopia/3DTopia
- Abstract(参考訳): 本研究では,ハイクオリティな3dアセットを5分以内で生成する3dtopiaという2段階のテキスト対3d生成システムを提案する。
第1ステージは3dデータから直接学習した3d拡散からのサンプルである。
具体的には、テキスト条件付き三面潜在拡散モデルを使って、高速プロトタイピングのために粗い3dサンプルを素早く生成する。
第2段は、粗い3dモデルのテクスチャを第1段からさらに洗練するために2次元拡散前駆体を用いる。
この改良は、高品質テクスチャ生成のための潜在空間最適化とピクセル空間最適化の両方から成っている。
提案システムのトレーニングを容易にするため,視覚言語モデルと大規模言語モデルを組み合わせることで,最大規模のオープンソース3DデータセットであるObjaverseをクリーン・キャプションする。
実験結果は定性的かつ定量的に報告され,提案システムの性能を示す。
私たちのコードとモデルはhttps://github.com/3DTopia/3DTopiaで利用可能です。
関連論文リスト
- DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - PI3D: Efficient Text-to-3D Generation with Pseudo-Image Diffusion [18.82883336156591]
本稿では,テキストプロンプトから高品質な3D形状を数分で生成する,事前学習されたテキスト・画像拡散モデルの能力をフル活用するフレームワークPI3Dを提案する。
PI3Dはテキストからわずか3分で1つの3D形状を生成し、その品質は既存の3D生成モデルよりも大きなマージンで優れていることが検証される。
論文 参考訳(メタデータ) (2023-12-14T16:04:34Z) - TPA3D: Triplane Attention for Fast Text-to-3D Generation [28.33270078863519]
テキスト誘導型3次元生成(TPA3D)のためのトライプレーンアテンションを提案する。
TPA3Dは、高速テキストから3D生成のための、エンドツーエンドのトレーニング可能なGANベースのディープラーニングモデルである。
TPA3Dは, きめ細かい記述と整合した高品質な3次元テクスチャ形状を生成する。
論文 参考訳(メタデータ) (2023-12-05T10:39:37Z) - Instant3D: Fast Text-to-3D with Sparse-View Generation and Large
Reconstruction Model [68.98311213582949]
テキストプロンプトから高品質で多様な3Dアセットをフィードフォワードで生成する新しい手法であるInstant3Dを提案する。
提案手法は,従来の最適化手法よりも2桁早く,20秒以内に高画質の多種多様な3Dアセットを生成できる。
論文 参考訳(メタデータ) (2023-11-10T18:03:44Z) - GaussianDreamer: Fast Generation from Text to 3D Gaussians by Bridging 2D and 3D Diffusion Models [102.22388340738536]
2Dおよび3D拡散モデルは、プロンプトに基づいて適切な3Dオブジェクトを生成することができる。
3次元拡散モデルには優れた3次元整合性があるが、トレーニング可能な3次元データは高価で入手が難しいため、その品質と一般化は制限されている。
本稿では,2種類の拡散モデルから近年の明示的かつ効率的な3次元ガウススプラッティング表現を通じて電力を橋渡ししようとする。
論文 参考訳(メタデータ) (2023-10-12T17:22:24Z) - EfficientDreamer: High-Fidelity and Robust 3D Creation via Orthogonal-view Diffusion Prior [59.25950280610409]
直交ビュー画像誘導を利用した高画質な3Dコンテンツ生成パイプラインを提案する。
本稿では,与えられたテキストプロンプトに基づいて4つのサブイメージからなる画像を生成する2次元拡散モデルを提案する。
また,生成した3Dコンテンツの詳細をさらに改善する3D合成ネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-25T07:39:26Z) - DreamFusion: Text-to-3D using 2D Diffusion [52.52529213936283]
テキストと画像の合成の最近の進歩は、何十億もの画像と画像のペアで訓練された拡散モデルによって引き起こされている。
本研究では,事前訓練された2次元テキスト・ツー・イメージ拡散モデルを用いてテキスト・ツー・3次元合成を行うことにより,これらの制約を回避する。
提案手法では,3次元トレーニングデータや画像拡散モデルの変更は必要とせず,事前訓練した画像拡散モデルの有効性を実証する。
論文 参考訳(メタデータ) (2022-09-29T17:50:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。