論文の概要: Magic3D: High-Resolution Text-to-3D Content Creation
- arxiv url: http://arxiv.org/abs/2211.10440v2
- Date: Sat, 25 Mar 2023 17:32:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 01:38:57.711470
- Title: Magic3D: High-Resolution Text-to-3D Content Creation
- Title(参考訳): Magic3D:高解像度テキストから3Dコンテンツ作成
- Authors: Chen-Hsuan Lin, Jun Gao, Luming Tang, Towaki Takikawa, Xiaohui Zeng,
Xun Huang, Karsten Kreis, Sanja Fidler, Ming-Yu Liu, Tsung-Yi Lin
- Abstract要約: DreamFusionは最近、NeRF(Neural Radiance Fields)を最適化するための事前訓練されたテキスト-画像拡散モデルの有用性を実証した。
本稿では,2段階最適化フレームワークを用いて,これらの制約に対処する。
Magic3Dと呼ばれる我々の手法は、DreamFusionより2倍高速な高品質な3Dメッシュモデルを40分で作成できる。
- 参考スコア(独自算出の注目度): 78.40092800817311
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: DreamFusion has recently demonstrated the utility of a pre-trained
text-to-image diffusion model to optimize Neural Radiance Fields (NeRF),
achieving remarkable text-to-3D synthesis results. However, the method has two
inherent limitations: (a) extremely slow optimization of NeRF and (b)
low-resolution image space supervision on NeRF, leading to low-quality 3D
models with a long processing time. In this paper, we address these limitations
by utilizing a two-stage optimization framework. First, we obtain a coarse
model using a low-resolution diffusion prior and accelerate with a sparse 3D
hash grid structure. Using the coarse representation as the initialization, we
further optimize a textured 3D mesh model with an efficient differentiable
renderer interacting with a high-resolution latent diffusion model. Our method,
dubbed Magic3D, can create high quality 3D mesh models in 40 minutes, which is
2x faster than DreamFusion (reportedly taking 1.5 hours on average), while also
achieving higher resolution. User studies show 61.7% raters to prefer our
approach over DreamFusion. Together with the image-conditioned generation
capabilities, we provide users with new ways to control 3D synthesis, opening
up new avenues to various creative applications.
- Abstract(参考訳): DreamFusionは先日,Neural Radiance Fields (NeRF) を最適化するための事前訓練されたテキスト・ツー・イメージ拡散モデルの有用性を実証した。
しかし、この方法には2つの固有の制限がある。
(a)NeRFの極端に遅い最適化
(b)NeRFにおける低解像度画像空間の監視により,低品質な3次元モデルが長い処理時間で実現された。
本稿では,2段階最適化フレームワークを用いて,これらの制約に対処する。
まず,低分解能拡散を先行して粗いモデルを求め,スパース3次元ハッシュグリッド構造を用いて高速化する。
粗い表現を初期化として、高分解能潜伏拡散モデルと相互作用する効率的な微分可能レンダラを用いて、さらにテクスチャ付き3dメッシュモデルを最適化する。
Magic3Dと呼ばれる私たちの方法は、40分で高品質な3Dメッシュモデルを作成することができ、DreamFusion(平均1.5時間)よりも2倍高速で、高解像度を実現しています。
ユーザ調査では、61.7%がDreamFusionよりも私たちのアプローチを好んでいる。
イメージコンディショニング生成機能と合わせて、3d合成を制御する新しい方法を提供し、様々なクリエイティブなアプリケーションに新しい道を開く。
関連論文リスト
- Unique3D: High-Quality and Efficient 3D Mesh Generation from a Single Image [28.759158325097093]
Unique3Dは、シングルビュー画像から高品質な3Dメッシュを効率的に生成するための、新しい画像間3Dフレームワークである。
我々のフレームワークは、最先端世代の忠実さと強力な一般化性を備えている。
論文 参考訳(メタデータ) (2024-05-30T17:59:54Z) - Compress3D: a Compressed Latent Space for 3D Generation from a Single Image [27.53099431097921]
トリプレーンオートエンコーダは3次元モデルをコンパクトな3次元ラテント空間に符号化し、3次元幾何情報とテクスチャ情報の両方を圧縮する。
本稿では,低解像度の潜在表現を用いて高解像度の3D特徴量から特徴を問合せする3D対応のクロスアテンション機構を提案する。
われわれのアプローチでは、1つのA100 GPU上で7秒で高品質な3Dアセットを生成できる。
論文 参考訳(メタデータ) (2024-03-20T11:51:04Z) - LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation [73.36690511083894]
本稿では,LN3Diffと呼ばれる新しいフレームワークを導入し,統一された3次元拡散パイプラインに対処する。
提案手法では,3次元アーキテクチャと変分オートエンコーダを用いて,入力画像を構造化されたコンパクトな3次元潜在空間に符号化する。
3次元生成のためのShapeNetの最先端性能を実現し,モノクロ3次元再構成と条件付き3次元生成において優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-18T17:54:34Z) - 3DTopia: Large Text-to-3D Generation Model with Hybrid Diffusion Priors [85.11117452560882]
本稿では,2段階のテキスト・ツー・3D生成システムである3DTopiaについて述べる。
3次元データから直接学習される3次元拡散の第1段階のサンプルは、テキスト条件付き3次元潜伏拡散モデルを用いており、高速なプロトタイピングのための粗い3次元サンプルを迅速に生成する。
第2段階は2次元拡散前処理を利用して、粗い3次元モデルのテクスチャを第1段階からさらに洗練し、高品質なテクスチャ生成のための潜時空間と画素空間の最適化からなる。
論文 参考訳(メタデータ) (2024-03-04T17:26:28Z) - Instant3D: Fast Text-to-3D with Sparse-View Generation and Large
Reconstruction Model [68.98311213582949]
テキストプロンプトから高品質で多様な3Dアセットをフィードフォワードで生成する新しい手法であるInstant3Dを提案する。
提案手法は,従来の最適化手法よりも2桁早く,20秒以内に高画質の多種多様な3Dアセットを生成できる。
論文 参考訳(メタデータ) (2023-11-10T18:03:44Z) - TextMesh: Generation of Realistic 3D Meshes From Text Prompts [56.2832907275291]
リアルな3Dメッシュを生成するための新しい手法を提案する。
この目的のために、NeRFをSDFバックボーンに拡張し、3Dメッシュ抽出を改善した。
論文 参考訳(メタデータ) (2023-04-24T20:29:41Z) - 3D-CLFusion: Fast Text-to-3D Rendering with Contrastive Latent Diffusion [55.71215821923401]
我々は、事前訓練された潜伏型NeRF(入力潜伏符号を与えられた3次元オブジェクトを生成するNeRF)によるテキストから3次元生成の課題に取り組む。
本稿では,3D-CLFusion という3D-CLFusion という手法を提案する。
論文 参考訳(メタデータ) (2023-03-21T15:38:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。