論文の概要: 3DTopia: Large Text-to-3D Generation Model with Hybrid Diffusion Priors
- arxiv url: http://arxiv.org/abs/2403.02234v1
- Date: Mon, 4 Mar 2024 17:26:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 17:57:34.432540
- Title: 3DTopia: Large Text-to-3D Generation Model with Hybrid Diffusion Priors
- Title(参考訳): 3dtopia:ハイブリッド拡散優先を持つ大規模テキストから3d生成モデル
- Authors: Fangzhou Hong, Jiaxiang Tang, Ziang Cao, Min Shi, Tong Wu, Zhaoxi
Chen, Tengfei Wang, Liang Pan, Dahua Lin, Ziwei Liu
- Abstract要約: 本稿では,2段階のテキスト・ツー・3D生成システムである3DTopiaについて述べる。
3次元データから直接学習される3次元拡散の第1段階のサンプルは、テキスト条件付き3次元潜伏拡散モデルを用いており、高速なプロトタイピングのための粗い3次元サンプルを迅速に生成する。
第2段階は2次元拡散前処理を利用して、粗い3次元モデルのテクスチャを第1段階からさらに洗練し、高品質なテクスチャ生成のための潜時空間と画素空間の最適化からなる。
- 参考スコア(独自算出の注目度): 86.31822685078642
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present a two-stage text-to-3D generation system, namely 3DTopia, which
generates high-quality general 3D assets within 5 minutes using hybrid
diffusion priors. The first stage samples from a 3D diffusion prior directly
learned from 3D data. Specifically, it is powered by a text-conditioned
tri-plane latent diffusion model, which quickly generates coarse 3D samples for
fast prototyping. The second stage utilizes 2D diffusion priors to further
refine the texture of coarse 3D models from the first stage. The refinement
consists of both latent and pixel space optimization for high-quality texture
generation. To facilitate the training of the proposed system, we clean and
caption the largest open-source 3D dataset, Objaverse, by combining the power
of vision language models and large language models. Experiment results are
reported qualitatively and quantitatively to show the performance of the
proposed system. Our codes and models are available at
https://github.com/3DTopia/3DTopia
- Abstract(参考訳): 本研究では,ハイクオリティな3dアセットを5分以内で生成する3dtopiaという2段階のテキスト対3d生成システムを提案する。
第1ステージは3dデータから直接学習した3d拡散からのサンプルである。
具体的には、テキスト条件付き三面潜在拡散モデルを使って、高速プロトタイピングのために粗い3dサンプルを素早く生成する。
第2段は、粗い3dモデルのテクスチャを第1段からさらに洗練するために2次元拡散前駆体を用いる。
この改良は、高品質テクスチャ生成のための潜在空間最適化とピクセル空間最適化の両方から成っている。
提案システムのトレーニングを容易にするため,視覚言語モデルと大規模言語モデルを組み合わせることで,最大規模のオープンソース3DデータセットであるObjaverseをクリーン・キャプションする。
実験結果は定性的かつ定量的に報告され,提案システムの性能を示す。
私たちのコードとモデルはhttps://github.com/3DTopia/3DTopiaで利用可能です。
関連論文リスト
- PI3D: Efficient Text-to-3D Generation with Pseudo-Image Diffusion [19.951329726916654]
PI3Dは、事前訓練されたテキスト-画像拡散モデルを用いて、高品質な3D形状を数分で生成する新しいフレームワークである。
事前学習した2次元拡散モデルを3次元拡散モデルに微調整し、3次元生成能力と2次元モデルから派生した一般化の両方を可能にする。
2次元拡散モデルのスコア蒸留サンプリングを利用して、サンプリングした3次元形状の品質を迅速に向上する。
論文 参考訳(メタデータ) (2023-12-14T16:04:34Z) - TPA3D: Triplane Attention for Fast Text-to-3D Generation [30.951440204237166]
テキスト誘導型3次元生成(TPA3D)のためのトライプレーンアテンションを提案する。
TPA3Dは、高速テキストから3D生成のための、エンドツーエンドのトレーニング可能なGANベースのディープラーニングモデルである。
TPA3Dは, きめ細かい記述と整合した高品質な3次元テクスチャ形状を生成する。
論文 参考訳(メタデータ) (2023-12-05T10:39:37Z) - X-Dreamer: Creating High-quality 3D Content by Bridging the Domain Gap
Between Text-to-2D and Text-to-3D Generation [64.12848271290119]
X-Dreamerは高品質なテキストから3Dコンテンツを作成するための新しいアプローチである。
テキスト対2D合成とテキスト対3D合成のギャップを埋める。
論文 参考訳(メタデータ) (2023-11-30T07:23:00Z) - Instant3D: Fast Text-to-3D with Sparse-View Generation and Large
Reconstruction Model [68.98311213582949]
テキストプロンプトから高品質で多様な3Dアセットをフィードフォワードで生成する新しい手法であるInstant3Dを提案する。
提案手法は,従来の最適化手法よりも2桁早く,20秒以内に高画質の多種多様な3Dアセットを生成できる。
論文 参考訳(メタデータ) (2023-11-10T18:03:44Z) - GaussianDreamer: Fast Generation from Text to 3D Gaussians by Bridging
2D and 3D Diffusion Models [106.06810278075223]
2Dおよび3D拡散モデルは、プロンプトに基づいて適切な3Dオブジェクトを生成することができる。
3次元拡散モデルには優れた3次元整合性があるが、トレーニング可能な3次元データは高価で入手が難しいため、その品質と一般化は制限されている。
本稿では,2種類の拡散モデルから近年の明示的かつ効率的な3次元ガウススプラッティング表現を通じて電力を橋渡ししようとする。
論文 参考訳(メタデータ) (2023-10-12T17:22:24Z) - Magic3D: High-Resolution Text-to-3D Content Creation [78.40092800817311]
DreamFusionは最近、NeRF(Neural Radiance Fields)を最適化するための事前訓練されたテキスト-画像拡散モデルの有用性を実証した。
本稿では,2段階最適化フレームワークを用いて,これらの制約に対処する。
Magic3Dと呼ばれる我々の手法は、DreamFusionより2倍高速な高品質な3Dメッシュモデルを40分で作成できる。
論文 参考訳(メタデータ) (2022-11-18T18:59:59Z) - DreamFusion: Text-to-3D using 2D Diffusion [52.52529213936283]
テキストと画像の合成の最近の進歩は、何十億もの画像と画像のペアで訓練された拡散モデルによって引き起こされている。
本研究では,事前訓練された2次元テキスト・ツー・イメージ拡散モデルを用いてテキスト・ツー・3次元合成を行うことにより,これらの制約を回避する。
提案手法では,3次元トレーニングデータや画像拡散モデルの変更は必要とせず,事前訓練した画像拡散モデルの有効性を実証する。
論文 参考訳(メタデータ) (2022-09-29T17:50:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。