論文の概要: GeoDream: Disentangling 2D and Geometric Priors for High-Fidelity and
Consistent 3D Generation
- arxiv url: http://arxiv.org/abs/2311.17971v1
- Date: Wed, 29 Nov 2023 15:48:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 19:11:09.530090
- Title: GeoDream: Disentangling 2D and Geometric Priors for High-Fidelity and
Consistent 3D Generation
- Title(参考訳): GeoDream:高忠実で一貫した3D生成のための2次元および幾何学的優先事項の分離
- Authors: Baorui Ma, Haoge Deng, Junsheng Zhou, Yu-Shen Liu, Tiejun Huang,
Xinlong Wang
- Abstract要約: そこで,GeoDreamは,2次元拡散プリエントを持つ明示的な一般化された3Dプリエントを組み込んだ新しい手法である。
具体的には,まず多視点拡散モデルを用いてポーズ画像を生成し,予測画像からコスト容積を構築する。
さらに,3次元の幾何学的先行性を利用して,不整合設計による2次元拡散先行性における3次元認識の大きな可能性を解き放つことを提案する。
- 参考スコア(独自算出の注目度): 66.46683554587352
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-3D generation by distilling pretrained large-scale text-to-image
diffusion models has shown great promise but still suffers from inconsistent 3D
geometric structures (Janus problems) and severe artifacts. The aforementioned
problems mainly stem from 2D diffusion models lacking 3D awareness during the
lifting. In this work, we present GeoDream, a novel method that incorporates
explicit generalized 3D priors with 2D diffusion priors to enhance the
capability of obtaining unambiguous 3D consistent geometric structures without
sacrificing diversity or fidelity. Specifically, we first utilize a multi-view
diffusion model to generate posed images and then construct cost volume from
the predicted image, which serves as native 3D geometric priors, ensuring
spatial consistency in 3D space. Subsequently, we further propose to harness 3D
geometric priors to unlock the great potential of 3D awareness in 2D diffusion
priors via a disentangled design. Notably, disentangling 2D and 3D priors
allows us to refine 3D geometric priors further. We justify that the refined 3D
geometric priors aid in the 3D-aware capability of 2D diffusion priors, which
in turn provides superior guidance for the refinement of 3D geometric priors.
Our numerical and visual comparisons demonstrate that GeoDream generates more
3D consistent textured meshes with high-resolution realistic renderings (i.e.,
1024 $\times$ 1024) and adheres more closely to semantic coherence.
- Abstract(参考訳): 事前訓練された大規模テキストから画像への拡散モデルの蒸留によるテキストから3d生成は大きな期待が持たれているが、3次元幾何学的構造(ヤヌス問題)と重篤なアーティファクトに苦しめられている。
上記の問題は、リフト中の3次元認識を欠いた2次元拡散モデルに起因する。
本研究では,2次元拡散優先を伴う明示的な一般化3次元事前化を取り入れ,多様性や忠実性を犠牲にすることなく不明瞭な3次元整合幾何構造を得る能力を高める新しい手法であるgeodreamを提案する。
具体的には、まず、多視点拡散モデルを用いてポーズ画像を生成し、予測画像からコストボリュームを構築し、3次元空間における空間的一貫性を確保する。
さらに, 3次元幾何学的前駆体を用いて, 2次元拡散前駆体における3次元認識の大きな可能性を不連続設計により解き放つことを提案する。
特に、2Dと3Dの先行を遠ざけることで、さらに3Dの幾何学的先行を洗練できます。
改良された3次元幾何前駆体は2次元拡散前駆体の3次元認識能力を助長し、3次元幾何前駆体の改良のための優れたガイダンスを提供する。
我々の数値的および視覚的比較は、GeoDreamが高解像度のリアルレンダリング(1024$\times$1024)でより3D一貫性のあるテクスチャメッシュを生成し、セマンティックコヒーレンスにより密着していることを示している。
関連論文リスト
- Deep Geometric Moments Promote Shape Consistency in Text-to-3D Generation [27.43973967994717]
MT3Dは高忠実度3Dオブジェクトを利用して視点バイアスを克服するテキスト・ツー・3D生成モデルである。
生成した2次元画像が基本形状と構造を保持することを保証するために,高品質な3次元モデルから導出される深度マップを制御信号として利用する。
3Dアセットから幾何学的詳細を取り入れることで、MT3Dは多様で幾何学的に一貫したオブジェクトを作成することができる。
論文 参考訳(メタデータ) (2024-08-12T06:25:44Z) - Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - Retrieval-Augmented Score Distillation for Text-to-3D Generation [30.57225047257049]
テキストから3D生成における検索に基づく品質向上のための新しいフレームワークを提案する。
我々はReDreamが幾何整合性を高めて優れた品質を示すことを示すために広範な実験を行った。
論文 参考訳(メタデータ) (2024-02-05T12:50:30Z) - Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D
Prior [52.44678180286886]
2次元拡散モデルでは、3次元データなしで優れた一般化と豊富な詳細を実現する蒸留手法が見つかる。
提案するSherpa3Dは,高忠実度,一般化性,幾何整合性を同時に実現する新しいテキスト・ツー・3Dフレームワークである。
論文 参考訳(メタデータ) (2023-12-11T18:59:18Z) - SweetDreamer: Aligning Geometric Priors in 2D Diffusion for Consistent
Text-to-3D [40.088688751115214]
事前学習した拡散モデルからテキストから3D生成のための3次元世界へ2D結果を持ち上げることは本質的に不明瞭である。
昇降時の3次元形状をよく定義した拡散モデルにおける2次元幾何学的先行を整列させて整合性を向上させる。
提案手法は,人間の評価によって85%以上の一貫性を有する新しい最先端性能を示す。
論文 参考訳(メタデータ) (2023-10-04T05:59:50Z) - EfficientDreamer: High-Fidelity and Robust 3D Creation via Orthogonal-view Diffusion Prior [59.25950280610409]
直交ビュー画像誘導を利用した高画質な3Dコンテンツ生成パイプラインを提案する。
本稿では,与えられたテキストプロンプトに基づいて4つのサブイメージからなる画像を生成する2次元拡散モデルを提案する。
また,生成した3Dコンテンツの詳細をさらに改善する3D合成ネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-25T07:39:26Z) - Magic123: One Image to High-Quality 3D Object Generation Using Both 2D
and 3D Diffusion Priors [104.79392615848109]
Magic123は、高品質でテクスチャ化された3Dメッシュのための、2段階の粗大なアプローチである。
最初の段階では、粗い幾何学を生成するために、神経放射場を最適化する。
第2段階では、視覚的に魅力的なテクスチャを持つ高分解能メッシュを生成するために、メモリ効率のよい微分可能なメッシュ表現を採用する。
論文 参考訳(メタデータ) (2023-06-30T17:59:08Z) - XDGAN: Multi-Modal 3D Shape Generation in 2D Space [60.46777591995821]
本稿では,3次元形状をコンパクトな1チャネル幾何画像に変換し,StyleGAN3と画像間翻訳ネットワークを利用して2次元空間で3次元オブジェクトを生成する手法を提案する。
生成された幾何学画像は素早く3Dメッシュに変換し、リアルタイムな3Dオブジェクト合成、可視化、インタラクティブな編集を可能にする。
近年の3次元生成モデルと比較して,より高速かつ柔軟な3次元形状生成,単一ビュー再構成,形状操作などの様々なタスクにおいて,本手法が有効であることを示す。
論文 参考訳(メタデータ) (2022-10-06T15:54:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。