論文の概要: 3D-CLFusion: Fast Text-to-3D Rendering with Contrastive Latent Diffusion
- arxiv url: http://arxiv.org/abs/2303.11938v2
- Date: Wed, 20 Dec 2023 07:12:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 22:25:59.131029
- Title: 3D-CLFusion: Fast Text-to-3D Rendering with Contrastive Latent Diffusion
- Title(参考訳): 3D-CLFusion: テキストから3Dへの高速レンダリング
- Authors: Yu-Jhe Li, Tao Xu, Ji Hou, Bichen Wu, Xiaoliang Dai, Albert Pumarola,
Peizhao Zhang, Peter Vajda, Kris Kitani
- Abstract要約: 我々は、事前訓練された潜伏型NeRF(入力潜伏符号を与えられた3次元オブジェクトを生成するNeRF)によるテキストから3次元生成の課題に取り組む。
本稿では,3D-CLFusion という3D-CLFusion という手法を提案する。
- 参考スコア(独自算出の注目度): 55.71215821923401
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We tackle the task of text-to-3D creation with pre-trained latent-based NeRFs
(NeRFs that generate 3D objects given input latent code). Recent works such as
DreamFusion and Magic3D have shown great success in generating 3D content using
NeRFs and text prompts, but the current approach of optimizing a NeRF for every
text prompt is 1) extremely time-consuming and 2) often leads to low-resolution
outputs. To address these challenges, we propose a novel method named
3D-CLFusion which leverages the pre-trained latent-based NeRFs and performs
fast 3D content creation in less than a minute. In particular, we introduce a
latent diffusion prior network for learning the w latent from the input CLIP
text/image embeddings. This pipeline allows us to produce the w latent without
further optimization during inference and the pre-trained NeRF is able to
perform multi-view high-resolution 3D synthesis based on the latent. We note
that the novelty of our model lies in that we introduce contrastive learning
during training the diffusion prior which enables the generation of the valid
view-invariant latent code. We demonstrate through experiments the
effectiveness of our proposed view-invariant diffusion process for fast
text-to-3D creation, e.g., 100 times faster than DreamFusion. We note that our
model is able to serve as the role of a plug-and-play tool for text-to-3D with
pre-trained NeRFs.
- Abstract(参考訳): 入力潜在コードに対して3dオブジェクトを生成するnerf(pre-trained latent-based nerfs)を用いて,テキスト対3d生成の課題に取り組む。
最近のDreamFusionやMagic3Dのような作品では、NeRFとテキストプロンプトを使って3Dコンテンツを生成することに成功している。
1)非常に時間がかかり、
2) しばしば低解像度出力につながる。
これらの課題に対処するために,事前学習した潜伏型nerfを活用し,高速3dコンテンツ作成を1分以内で行う3d-clfusionという新しい手法を提案する。
特に,入力CLIPテキスト/画像埋め込みからw潜時を学習するための潜時拡散事前ネットワークを提案する。
このパイプラインにより、推論中にさらに最適化することなくw latentを生成でき、事前トレーニングされたnerfは、latntに基づいてマルチビューの高解像度3d合成を実行できます。
モデルの新規性は,拡散前のトレーニングにおいて,有効なビュー不変遅延コードの生成を可能にするコントラスト学習を導入することにある。
本研究では,DreamFusionの100倍の速度でテキストから3Dまでを高速に作成するためのビュー不変拡散プロセスの有効性を示す。
我々のモデルは,事前学習したNeRFを用いたテキストから3Dへのプラグイン・アンド・プレイツールの役割を担っている。
関連論文リスト
- 3DTopia: Large Text-to-3D Generation Model with Hybrid Diffusion Priors [85.11117452560882]
本稿では,2段階のテキスト・ツー・3D生成システムである3DTopiaについて述べる。
3次元データから直接学習される3次元拡散の第1段階のサンプルは、テキスト条件付き3次元潜伏拡散モデルを用いており、高速なプロトタイピングのための粗い3次元サンプルを迅速に生成する。
第2段階は2次元拡散前処理を利用して、粗い3次元モデルのテクスチャを第1段階からさらに洗練し、高品質なテクスチャ生成のための潜時空間と画素空間の最適化からなる。
論文 参考訳(メタデータ) (2024-03-04T17:26:28Z) - Prompt2NeRF-PIL: Fast NeRF Generation via Pretrained Implicit Latent [61.56387277538849]
本稿では,3次元シーンの直接条件付けと高速なNeRFパラメータ生成のための高速なNeRF生成について検討する。
Prompt2NeRF-PILは、単一の前方通過で様々な3Dオブジェクトを生成することができる。
我々は,テキストからNeRFモデルDreamFusionと画像からNeRF手法Zero-1-to-3の3次元再構成速度を3倍から5倍に高速化することを示す。
論文 参考訳(メタデータ) (2023-12-05T08:32:46Z) - Spice-E : Structural Priors in 3D Diffusion using Cross-Entity Attention [9.52027244702166]
Spice-Eは3D拡散モデルに構造ガイダンスを追加するニューラルネットワークである。
提案手法は,3次元スタイリゼーション,意味的形状の編集,テキスト条件の抽象化-to-3Dなど,様々なアプリケーションをサポートする。
論文 参考訳(メタデータ) (2023-11-29T17:36:49Z) - TextMesh: Generation of Realistic 3D Meshes From Text Prompts [56.2832907275291]
リアルな3Dメッシュを生成するための新しい手法を提案する。
この目的のために、NeRFをSDFバックボーンに拡張し、3Dメッシュ抽出を改善した。
論文 参考訳(メタデータ) (2023-04-24T20:29:41Z) - DITTO-NeRF: Diffusion-based Iterative Text To Omni-directional 3D Model [15.091263190886337]
テキストプロンプトや単一画像から高品質な3D NeRFモデルを生成するための新しいパイプラインを提案する。
DitTO-NeRFは、前景から与えられたまたはテキスト生成された2D画像を用いて、制限付きインバウンダリ(IB)角度のための高品質な部分的な3Dオブジェクトを構築する。
我々は,DITTO-NeRFにおける3次元オブジェクト再構成手法を,スケール(低分解能),アングル(IB角),外界(OB),マスク(背景境界)の3次元オブジェクト再構成方式を提案する。
論文 参考訳(メタデータ) (2023-04-06T02:27:22Z) - Magic3D: High-Resolution Text-to-3D Content Creation [78.40092800817311]
DreamFusionは最近、NeRF(Neural Radiance Fields)を最適化するための事前訓練されたテキスト-画像拡散モデルの有用性を実証した。
本稿では,2段階最適化フレームワークを用いて,これらの制約に対処する。
Magic3Dと呼ばれる我々の手法は、DreamFusionより2倍高速な高品質な3Dメッシュモデルを40分で作成できる。
論文 参考訳(メタデータ) (2022-11-18T18:59:59Z) - Latent-NeRF for Shape-Guided Generation of 3D Shapes and Textures [72.44361273600207]
我々は, スコア蒸留を, 一般に利用可能な, 計算効率の良い遅延拡散モデルに適用する。
潜在拡散モデルは、事前訓練された自己エンコーダのコンパクト潜在空間に全拡散過程を適用する。
これらの結果から, 3次元メッシュに直接, 潜在スコア蒸留を適用できることが示唆された。
論文 参考訳(メタデータ) (2022-11-14T18:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。