論文の概要: Dual3D: Efficient and Consistent Text-to-3D Generation with Dual-mode Multi-view Latent Diffusion
- arxiv url: http://arxiv.org/abs/2405.09874v1
- Date: Thu, 16 May 2024 07:50:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-17 15:01:20.824126
- Title: Dual3D: Efficient and Consistent Text-to-3D Generation with Dual-mode Multi-view Latent Diffusion
- Title(参考訳): Dual3D:Dual-mode Multi-view Latent Diffusionによるテキスト・ツー・3D生成の効率化
- Authors: Xinyang Li, Zhangyu Lai, Linning Xu, Jianfei Guo, Liujuan Cao, Shengchuan Zhang, Bo Dai, Rongrong Ji,
- Abstract要約: 本稿では,新しいテキスト・ツー・3D生成フレームワークであるDual3Dを紹介する。
テキストから高品質な3Dアセットをわずか1分で生成する。
- 参考スコア(独自算出の注目度): 62.37374499337897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Dual3D, a novel text-to-3D generation framework that generates high-quality 3D assets from texts in only $1$ minute.The key component is a dual-mode multi-view latent diffusion model. Given the noisy multi-view latents, the 2D mode can efficiently denoise them with a single latent denoising network, while the 3D mode can generate a tri-plane neural surface for consistent rendering-based denoising. Most modules for both modes are tuned from a pre-trained text-to-image latent diffusion model to circumvent the expensive cost of training from scratch. To overcome the high rendering cost during inference, we propose the dual-mode toggling inference strategy to use only $1/10$ denoising steps with 3D mode, successfully generating a 3D asset in just $10$ seconds without sacrificing quality. The texture of the 3D asset can be further enhanced by our efficient texture refinement process in a short time. Extensive experiments demonstrate that our method delivers state-of-the-art performance while significantly reducing generation time. Our project page is available at https://dual3d.github.io
- Abstract(参考訳): 本稿では,テキストから高品質な3Dアセットをわずか1分で生成する新しいテキスト・ツー・3D生成フレームワークであるDual3Dについて紹介する。
ノイズの多いマルチビューレイトを考慮すれば、2Dモードは1つの遅延デノナイジングネットワークで効率的にデノナイジングすることができ、3Dモードは一貫したレンダリングベースのデノナイジングのために三面体ニューラルサーフェスを生成することができる。
両方のモードのほとんどのモジュールは、訓練済みのテキストから画像への遅延拡散モデルから調整され、コストのかかるトレーニングコストをゼロから回避する。
推論における高レンダリングコストを克服するために,2重モードのトグルリング推論手法を提案し,3Dモードで1/10ドルのデノナイズステップしか使用せず,品質を犠牲にすることなく,わずか10ドル秒で3Dアセットを生成できた。
3Dアセットのテクスチャは、我々の効率的なテクスチャ改質プロセスにより、短時間でさらに強化することができる。
大規模な実験により,本手法は生成時間を大幅に短縮しつつ,最先端性能を実現することを示した。
私たちのプロジェクトページはhttps://dual3d.github.ioで公開されています。
関連論文リスト
- Compress3D: a Compressed Latent Space for 3D Generation from a Single Image [27.53099431097921]
トリプレーンオートエンコーダは3次元モデルをコンパクトな3次元ラテント空間に符号化し、3次元幾何情報とテクスチャ情報の両方を圧縮する。
本稿では,低解像度の潜在表現を用いて高解像度の3D特徴量から特徴を問合せする3D対応のクロスアテンション機構を提案する。
われわれのアプローチでは、1つのA100 GPU上で7秒で高品質な3Dアセットを生成できる。
論文 参考訳(メタデータ) (2024-03-20T11:51:04Z) - 3DTopia: Large Text-to-3D Generation Model with Hybrid Diffusion Priors [85.11117452560882]
本稿では,2段階のテキスト・ツー・3D生成システムである3DTopiaについて述べる。
3次元データから直接学習される3次元拡散の第1段階のサンプルは、テキスト条件付き3次元潜伏拡散モデルを用いており、高速なプロトタイピングのための粗い3次元サンプルを迅速に生成する。
第2段階は2次元拡散前処理を利用して、粗い3次元モデルのテクスチャを第1段階からさらに洗練し、高品質なテクスチャ生成のための潜時空間と画素空間の最適化からなる。
論文 参考訳(メタデータ) (2024-03-04T17:26:28Z) - LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content
Creation [51.19871052619077]
テキストプロンプトやシングルビュー画像から高解像度の3Dモデルを生成するための新しいフレームワークであるLarge Multi-View Gaussian Model (LGM)を紹介する。
我々は,5秒以内に3Dオブジェクトを生成する高速な速度を維持しながら,トレーニング解像度を512に向上し,高解像度な3Dコンテンツ生成を実現する。
論文 参考訳(メタデータ) (2024-02-07T17:57:03Z) - One-2-3-45++: Fast Single Image to 3D Objects with Consistent Multi-View
Generation and 3D Diffusion [32.29687304798145]
One-2-3-45++は、1つの画像を1分で詳細な3Dテクスチャメッシュに変換する革新的な方法である。
提案手法は,2次元拡散モデルに埋め込まれた広範囲な知識を,貴重な3次元データから活用することを目的としている。
論文 参考訳(メタデータ) (2023-11-14T03:40:25Z) - Instant3D: Fast Text-to-3D with Sparse-View Generation and Large
Reconstruction Model [68.98311213582949]
テキストプロンプトから高品質で多様な3Dアセットをフィードフォワードで生成する新しい手法であるInstant3Dを提案する。
提案手法は,従来の最適化手法よりも2桁早く,20秒以内に高画質の多種多様な3Dアセットを生成できる。
論文 参考訳(メタデータ) (2023-11-10T18:03:44Z) - Magic3D: High-Resolution Text-to-3D Content Creation [78.40092800817311]
DreamFusionは最近、NeRF(Neural Radiance Fields)を最適化するための事前訓練されたテキスト-画像拡散モデルの有用性を実証した。
本稿では,2段階最適化フレームワークを用いて,これらの制約に対処する。
Magic3Dと呼ばれる我々の手法は、DreamFusionより2倍高速な高品質な3Dメッシュモデルを40分で作成できる。
論文 参考訳(メタデータ) (2022-11-18T18:59:59Z) - RenderDiffusion: Image Diffusion for 3D Reconstruction, Inpainting and
Generation [68.06991943974195]
単分子2次元観察のみを用いて学習した3次元生成と推論のための最初の拡散モデルであるRenderDiffusionを提案する。
FFHQ,AFHQ,ShapeNet,CLEVRのデータセット上でRenderDiffusionを評価し,3Dシーンの生成と2D画像からの3Dシーンの推測の競合性能を示した。
論文 参考訳(メタデータ) (2022-11-17T20:17:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。