論文の概要: Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D
Prior
- arxiv url: http://arxiv.org/abs/2312.06655v1
- Date: Mon, 11 Dec 2023 18:59:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 14:09:09.529880
- Title: Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D
Prior
- Title(参考訳): Sherpa3D: 粗い3D前処理による高忠実テキスト・ツー・3D生成
- Authors: Fangfu Liu, Diankun Wu, Yi Wei, Yongming Rao, Yueqi Duan
- Abstract要約: 2次元拡散モデルでは、3次元データなしで優れた一般化と豊富な詳細を実現する蒸留手法が見つかる。
提案するSherpa3Dは,高忠実度,一般化性,幾何整合性を同時に実現する新しいテキスト・ツー・3Dフレームワークである。
- 参考スコア(独自算出の注目度): 52.44678180286886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, 3D content creation from text prompts has demonstrated remarkable
progress by utilizing 2D and 3D diffusion models. While 3D diffusion models
ensure great multi-view consistency, their ability to generate high-quality and
diverse 3D assets is hindered by the limited 3D data. In contrast, 2D diffusion
models find a distillation approach that achieves excellent generalization and
rich details without any 3D data. However, 2D lifting methods suffer from
inherent view-agnostic ambiguity thereby leading to serious multi-face Janus
issues, where text prompts fail to provide sufficient guidance to learn
coherent 3D results. Instead of retraining a costly viewpoint-aware model, we
study how to fully exploit easily accessible coarse 3D knowledge to enhance the
prompts and guide 2D lifting optimization for refinement. In this paper, we
propose Sherpa3D, a new text-to-3D framework that achieves high-fidelity,
generalizability, and geometric consistency simultaneously. Specifically, we
design a pair of guiding strategies derived from the coarse 3D prior generated
by the 3D diffusion model: a structural guidance for geometric fidelity and a
semantic guidance for 3D coherence. Employing the two types of guidance, the 2D
diffusion model enriches the 3D content with diversified and high-quality
results. Extensive experiments show the superiority of our Sherpa3D over the
state-of-the-art text-to-3D methods in terms of quality and 3D consistency.
- Abstract(参考訳): 近年,テキストプロンプトによる3次元コンテンツ生成は,2次元と3次元の拡散モデルを用いて顕著に進展している。
3D拡散モデルは、優れたマルチビュー一貫性を保証するが、高品質で多様な3Dアセットを生成する能力は、限られた3Dデータによって妨げられる。
対照的に、2次元拡散モデルは、3dデータなしで優れた一般化とリッチディテールを達成する蒸留アプローチを見つける。
しかし,2次元挙上法は視界に依存しないあいまいさに悩まされるため,重度の多面的ジャヌス問題が発生し,テキストプロンプトがコヒーレントな3D結果の学習に十分なガイダンスを与えられなかった。
コストのかかる視点認識モデルを再トレーニングする代わりに、容易にアクセス可能な粗い3d知識を十分に活用してプロンプトを強化する方法を検討し、2次元の昇降最適化を指導する。
本稿では,高忠実度,一般化性,幾何整合性を同時に実現する新しいテキスト・ツー・3DフレームワークであるSherpa3Dを提案する。
具体的には,3次元拡散モデルによって事前に生成される粗い3Dから導かれる一対の案内戦略を設計する:幾何学的忠実度の構造的ガイダンスと3次元コヒーレンスの意味的ガイダンスである。
2次元拡散モデルでは,2次元拡散モデルが3次元コンテンツを多様かつ高品質な結果で高めている。
広範な実験により、sherpa3dは、品質と3d一貫性の観点から、最先端のtext-to-3dメソッドよりも優れていることが分かりました。
関連論文リスト
- DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - DiffTF++: 3D-aware Diffusion Transformer for Large-Vocabulary 3D Generation [53.20147419879056]
拡散型フィードフォワードフレームワークを導入し,単一モデルで課題に対処する。
TransFormerを用いた3D対応拡散モデルを構築し,より強力な3D生成,すなわちDiffTF++を提案する。
ShapeNetとOmniObject3Dの実験は、提案したモジュールの有効性を確実に実証している。
論文 参考訳(メタデータ) (2024-05-13T17:59:51Z) - Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - Retrieval-Augmented Score Distillation for Text-to-3D Generation [30.57225047257049]
テキストから3D生成における検索に基づく品質向上のための新しいフレームワークを提案する。
我々はReDreamが幾何整合性を高めて優れた品質を示すことを示すために広範な実験を行った。
論文 参考訳(メタデータ) (2024-02-05T12:50:30Z) - BoostDream: Efficient Refining for High-Quality Text-to-3D Generation from Multi-View Diffusion [0.0]
BoostDreamは、粗い3D資産を高品質に変換するために設計された、高効率なプラグアンドプレイ3D精製手法である。
本研究では, フィードフォワード生成により得られた3次元アセットと異なる表現に適合する3次元モデル蒸留を導入する。
新たな多視点SDS損失を設計し、多視点認識2次元拡散モデルを用いて3次元資産を洗練させる。
論文 参考訳(メタデータ) (2024-01-30T05:59:00Z) - Large-Vocabulary 3D Diffusion Model with Transformer [57.076986347047]
本稿では,1つの生成モデルを用いて実世界の3Dオブジェクトの大規模カテゴリを合成するための拡散型フィードフォワードフレームワークを提案する。
本稿では,三面体を用いた3次元拡散モデル(TransFormer, DiffTF)を提案する。
ShapeNetとOmniObject3Dの実験は、単一のDiffTFモデルが最先端の大語彙3Dオブジェクト生成性能を達成することを確実に実証している。
論文 参考訳(メタデータ) (2023-09-14T17:59:53Z) - EfficientDreamer: High-Fidelity and Robust 3D Creation via Orthogonal-view Diffusion Prior [59.25950280610409]
直交ビュー画像誘導を利用した高画質な3Dコンテンツ生成パイプラインを提案する。
本稿では,与えられたテキストプロンプトに基づいて4つのサブイメージからなる画像を生成する2次元拡散モデルを提案する。
また,生成した3Dコンテンツの詳細をさらに改善する3D合成ネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-25T07:39:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。