論文の概要: 3DTopia: Large Text-to-3D Generation Model with Hybrid Diffusion Priors
- arxiv url: http://arxiv.org/abs/2403.02234v2
- Date: Tue, 7 May 2024 03:25:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 19:23:11.157238
- Title: 3DTopia: Large Text-to-3D Generation Model with Hybrid Diffusion Priors
- Title(参考訳): 3DTopia:ハイブリッド拡散プリミティブを用いた大規模テキスト・ツー・3D生成モデル
- Authors: Fangzhou Hong, Jiaxiang Tang, Ziang Cao, Min Shi, Tong Wu, Zhaoxi Chen, Shuai Yang, Tengfei Wang, Liang Pan, Dahua Lin, Ziwei Liu,
- Abstract要約: 本稿では,2段階のテキスト・ツー・3D生成システムである3DTopiaについて述べる。
3次元データから直接学習される3次元拡散の第1段階のサンプルは、テキスト条件付き3次元潜伏拡散モデルを用いており、高速なプロトタイピングのための粗い3次元サンプルを迅速に生成する。
第2段階は2次元拡散前処理を利用して、粗い3次元モデルのテクスチャを第1段階からさらに洗練し、高品質なテクスチャ生成のための潜時空間と画素空間の最適化からなる。
- 参考スコア(独自算出の注目度): 85.11117452560882
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present a two-stage text-to-3D generation system, namely 3DTopia, which generates high-quality general 3D assets within 5 minutes using hybrid diffusion priors. The first stage samples from a 3D diffusion prior directly learned from 3D data. Specifically, it is powered by a text-conditioned tri-plane latent diffusion model, which quickly generates coarse 3D samples for fast prototyping. The second stage utilizes 2D diffusion priors to further refine the texture of coarse 3D models from the first stage. The refinement consists of both latent and pixel space optimization for high-quality texture generation. To facilitate the training of the proposed system, we clean and caption the largest open-source 3D dataset, Objaverse, by combining the power of vision language models and large language models. Experiment results are reported qualitatively and quantitatively to show the performance of the proposed system. Our codes and models are available at https://github.com/3DTopia/3DTopia
- Abstract(参考訳): 本稿では,2段階のテキスト・ツー・3D生成システムである3DTopiaについて述べる。
最初のステージは、3Dデータから直接学習される前に3D拡散からサンプリングされる。
具体的には、テキスト条件付き3次元潜伏拡散モデルを用いて、高速なプロトタイピングのための粗い3Dサンプルを迅速に生成する。
第2段階は、第1段階から粗い3Dモデルのテクスチャをさらに洗練するために、2次元拡散先行を利用している。
精細化は、高品質なテクスチャ生成のための潜時空間とピクセル空間の最適化の両方から成っている。
提案手法の学習を容易にするため,視覚言語モデルと大規模言語モデルを組み合わせることで,最大規模のオープンソース3DデータセットであるObjaverseをクリーン・キャプションする。
実験結果を質的,定量的に報告し,提案システムの性能を示す。
私たちのコードとモデルはhttps://github.com/3DTopia/3DTopiaで利用可能です。
関連論文リスト
- DiffSplat: Repurposing Image Diffusion Models for Scalable Gaussian Splat Generation [33.62074896816882]
DiffSplatは,大規模テキスト・画像拡散モデルを用いて3次元ガウススプラットを生成する新しい3次元生成フレームワークである。
従来の3D生成モデルと異なり、Webスケールの2D事前を効果的に活用しつつ、統一モデルにおける3D一貫性を維持している。
これらの格子上の正規拡散損失と合わせて、3Dレンダリング損失を導入し、任意のビューの3Dコヒーレンスを促進する。
論文 参考訳(メタデータ) (2025-01-28T07:38:59Z) - Zero-1-to-G: Taming Pretrained 2D Diffusion Model for Direct 3D Generation [66.75243908044538]
我々は,事前学習した2次元拡散モデルを用いたガウススプラット上での3次元直接生成手法であるZero-1-to-Gを導入する。
3D認識を取り入れるために,複雑な相関関係を捉え,生成されたスプラット間の3D一貫性を強制する,クロスビュー層とクロスアトリビュートアテンション層を導入する。
これにより、Zero-1-to-Gは、事前訓練された2D拡散前処理を効果的に活用する最初の直接画像から3D生成モデルとなり、効率的なトレーニングと未確認物体への一般化が実現された。
論文 参考訳(メタデータ) (2025-01-09T18:37:35Z) - DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - PI3D: Efficient Text-to-3D Generation with Pseudo-Image Diffusion [18.82883336156591]
本稿では,テキストプロンプトから高品質な3D形状を数分で生成する,事前学習されたテキスト・画像拡散モデルの能力をフル活用するフレームワークPI3Dを提案する。
PI3Dはテキストからわずか3分で1つの3D形状を生成し、その品質は既存の3D生成モデルよりも大きなマージンで優れていることが検証される。
論文 参考訳(メタデータ) (2023-12-14T16:04:34Z) - TPA3D: Triplane Attention for Fast Text-to-3D Generation [28.33270078863519]
テキスト誘導型3次元生成(TPA3D)のためのトライプレーンアテンションを提案する。
TPA3Dは、高速テキストから3D生成のための、エンドツーエンドのトレーニング可能なGANベースのディープラーニングモデルである。
TPA3Dは, きめ細かい記述と整合した高品質な3次元テクスチャ形状を生成する。
論文 参考訳(メタデータ) (2023-12-05T10:39:37Z) - Instant3D: Fast Text-to-3D with Sparse-View Generation and Large
Reconstruction Model [68.98311213582949]
テキストプロンプトから高品質で多様な3Dアセットをフィードフォワードで生成する新しい手法であるInstant3Dを提案する。
提案手法は,従来の最適化手法よりも2桁早く,20秒以内に高画質の多種多様な3Dアセットを生成できる。
論文 参考訳(メタデータ) (2023-11-10T18:03:44Z) - GaussianDreamer: Fast Generation from Text to 3D Gaussians by Bridging 2D and 3D Diffusion Models [102.22388340738536]
2Dおよび3D拡散モデルは、プロンプトに基づいて適切な3Dオブジェクトを生成することができる。
3次元拡散モデルには優れた3次元整合性があるが、トレーニング可能な3次元データは高価で入手が難しいため、その品質と一般化は制限されている。
本稿では,2種類の拡散モデルから近年の明示的かつ効率的な3次元ガウススプラッティング表現を通じて電力を橋渡ししようとする。
論文 参考訳(メタデータ) (2023-10-12T17:22:24Z) - DreamFusion: Text-to-3D using 2D Diffusion [52.52529213936283]
テキストと画像の合成の最近の進歩は、何十億もの画像と画像のペアで訓練された拡散モデルによって引き起こされている。
本研究では,事前訓練された2次元テキスト・ツー・イメージ拡散モデルを用いてテキスト・ツー・3次元合成を行うことにより,これらの制約を回避する。
提案手法では,3次元トレーニングデータや画像拡散モデルの変更は必要とせず,事前訓練した画像拡散モデルの有効性を実証する。
論文 参考訳(メタデータ) (2022-09-29T17:50:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。