論文の概要: Dream3D: Zero-Shot Text-to-3D Synthesis Using 3D Shape Prior and
Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2212.14704v1
- Date: Wed, 28 Dec 2022 18:23:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 16:57:26.832530
- Title: Dream3D: Zero-Shot Text-to-3D Synthesis Using 3D Shape Prior and
Text-to-Image Diffusion Models
- Title(参考訳): Dream3D: 3次元形状とテキスト・画像拡散モデルを用いたゼロショットテキスト・ツー・3次元合成
- Authors: Jiale Xu, Xintao Wang, Weihao Cheng, Yan-Pei Cao, Ying Shan, Xiaohu
Qie, Shenghua Gao
- Abstract要約: CLIP誘導3次元最適化手法に先立って, 明示的な3次元形状を導入する。
テキスト・ツー・シェイプ生成では,テキストと画像のモダリティを直接ブリッジするシンプルなアプローチを提案する。
本稿では、学習可能なテキストプロンプトを共同で最適化し、レンダリングスタイルの画像生成のためのテキスト間拡散モデルを微調整する。
- 参考スコア(独自算出の注目度): 44.34479731617561
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent CLIP-guided 3D optimization methods, e.g., DreamFields and
PureCLIPNeRF achieve great success in zero-shot text-guided 3D synthesis.
However, due to the scratch training and random initialization without any
prior knowledge, these methods usually fail to generate accurate and faithful
3D structures that conform to the corresponding text. In this paper, we make
the first attempt to introduce the explicit 3D shape prior to CLIP-guided 3D
optimization methods. Specifically, we first generate a high-quality 3D shape
from input texts in the text-to-shape stage as the 3D shape prior. We then
utilize it as the initialization of a neural radiance field and then optimize
it with the full prompt. For the text-to-shape generation, we present a simple
yet effective approach that directly bridges the text and image modalities with
a powerful text-to-image diffusion model. To narrow the style domain gap
between images synthesized by the text-to-image model and shape renderings used
to train the image-to-shape generator, we further propose to jointly optimize a
learnable text prompt and fine-tune the text-to-image diffusion model for
rendering-style image generation. Our method, namely, Dream3D, is capable of
generating imaginative 3D content with better visual quality and shape accuracy
than state-of-the-art methods.
- Abstract(参考訳): 最近のCLIP誘導3D最適化手法、例えばDreamFieldsやPureCLIPNeRFは、ゼロショットテキスト誘導3D合成において大きな成功を収めている。
しかしながら、スクラッチトレーニングと事前知識のないランダム初期化のため、これらの方法は通常、対応するテキストに準拠した正確で忠実な3d構造を生成することができない。
本稿では,CLIP誘導3次元最適化手法に先立って,初めて明示的な3次元形状を導入する。
具体的には,先行する3d形状として,テキストから形状への入力テキストから高品質な3d形状を生成する。
次に、これを神経放射場の初期化として利用し、完全なプロンプトで最適化する。
テキスト対形状生成には,テキストと画像のモダリティを強力なテキスト対画像拡散モデルで直接ブリッジする,単純かつ効果的なアプローチを提案する。
テキスト対画像モデルによって合成された画像と、画像対形状生成器の訓練に用いられる形状レンダリングとの間のスタイル領域ギャップを狭めるため、学習可能なテキストプロンプトを共同で最適化し、レンダリングスタイルの画像生成のためのテキスト対画像拡散モデルを微調整することを提案する。
我々の手法、すなわちDream3Dは、最先端の手法よりも視覚的品質と形状の精度で想像力のある3Dコンテンツを生成できる。
関連論文リスト
- RealmDreamer: Text-Driven 3D Scene Generation with Inpainting and Depth Diffusion [39.03289977892935]
RealmDreamerはテキスト記述から一般的な前方向きの3Dシーンを生成する技術である。
我々の技術はビデオやマルチビューのデータを必要とせず、様々なスタイルの高品質な3Dシーンを合成することができる。
論文 参考訳(メタデータ) (2024-04-10T17:57:41Z) - 3DTopia: Large Text-to-3D Generation Model with Hybrid Diffusion Priors [85.11117452560882]
本稿では,2段階のテキスト・ツー・3D生成システムである3DTopiaについて述べる。
3次元データから直接学習される3次元拡散の第1段階のサンプルは、テキスト条件付き3次元潜伏拡散モデルを用いており、高速なプロトタイピングのための粗い3次元サンプルを迅速に生成する。
第2段階は2次元拡散前処理を利用して、粗い3次元モデルのテクスチャを第1段階からさらに洗練し、高品質なテクスチャ生成のための潜時空間と画素空間の最適化からなる。
論文 参考訳(メタデータ) (2024-03-04T17:26:28Z) - PI3D: Efficient Text-to-3D Generation with Pseudo-Image Diffusion [18.82883336156591]
本稿では,テキストプロンプトから高品質な3D形状を数分で生成する,事前学習されたテキスト・画像拡散モデルの能力をフル活用するフレームワークPI3Dを提案する。
PI3Dはテキストからわずか3分で1つの3D形状を生成し、その品質は既存の3D生成モデルよりも大きなマージンで優れていることが検証される。
論文 参考訳(メタデータ) (2023-12-14T16:04:34Z) - EfficientDreamer: High-Fidelity and Robust 3D Creation via Orthogonal-view Diffusion Prior [59.25950280610409]
直交ビュー画像誘導を利用した高画質な3Dコンテンツ生成パイプラインを提案する。
本稿では,与えられたテキストプロンプトに基づいて4つのサブイメージからなる画像を生成する2次元拡散モデルを提案する。
また,生成した3Dコンテンツの詳細をさらに改善する3D合成ネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-25T07:39:26Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - ATT3D: Amortized Text-to-3D Object Synthesis [78.96673650638365]
我々は、個別にではなく、統一されたモデルと同時に多くのプロンプトをトレーニングすることで、テキストプロンプトに対する最適化を保留する。
我々のフレームワークであるAmortized text-to-3D (ATT3D)は、プロンプト間の知識共有を可能にし、未知のセットアップに一般化し、新しいアセットのためのテキストと単純なアニメーション間のスムーズなスムーズさを実現する。
論文 参考訳(メタデータ) (2023-06-06T17:59:10Z) - TAPS3D: Text-Guided 3D Textured Shape Generation from Pseudo Supervision [114.56048848216254]
テキスト誘導型3次元形状生成器を疑似キャプションで訓練するための新しいフレームワークTAPS3Dを提案する。
レンダリングされた2D画像に基づいて,CLIP語彙から関連する単語を検索し,テンプレートを用いて擬似キャプションを構築する。
構築したキャプションは、生成された3次元形状の高レベルなセマンティック管理を提供する。
論文 参考訳(メタデータ) (2023-03-23T13:53:16Z) - Text to Mesh Without 3D Supervision Using Limit Subdivision [13.358081015190255]
本稿では,ターゲットテキストプロンプトのみを用いた3次元モデルのゼロショット生成手法を提案する。
入力テキストプロンプトを3Dモデルの異なるレンダリング画像と比較する、事前訓練されたCLIPモデルに依存しています。
論文 参考訳(メタデータ) (2022-03-24T20:36:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。