論文の概要: SweetDreamer: Aligning Geometric Priors in 2D Diffusion for Consistent
Text-to-3D
- arxiv url: http://arxiv.org/abs/2310.02596v2
- Date: Fri, 20 Oct 2023 04:02:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 02:54:29.056935
- Title: SweetDreamer: Aligning Geometric Priors in 2D Diffusion for Consistent
Text-to-3D
- Title(参考訳): SweetDreamer: テキストから3Dへの2次元拡散における幾何学的優先順位の調整
- Authors: Weiyu Li, Rui Chen, Xuelin Chen, Ping Tan
- Abstract要約: 事前学習した拡散モデルからテキストから3D生成のための3次元世界へ2D結果を持ち上げることは本質的に不明瞭である。
昇降時の3次元形状をよく定義した拡散モデルにおける2次元幾何学的先行を整列させて整合性を向上させる。
提案手法は,人間の評価によって85%以上の一貫性を有する新しい最先端性能を示す。
- 参考スコア(独自算出の注目度): 40.088688751115214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It is inherently ambiguous to lift 2D results from pre-trained diffusion
models to a 3D world for text-to-3D generation. 2D diffusion models solely
learn view-agnostic priors and thus lack 3D knowledge during the lifting,
leading to the multi-view inconsistency problem. We find that this problem
primarily stems from geometric inconsistency, and avoiding misplaced geometric
structures substantially mitigates the problem in the final outputs. Therefore,
we improve the consistency by aligning the 2D geometric priors in diffusion
models with well-defined 3D shapes during the lifting, addressing the vast
majority of the problem. This is achieved by fine-tuning the 2D diffusion model
to be viewpoint-aware and to produce view-specific coordinate maps of
canonically oriented 3D objects. In our process, only coarse 3D information is
used for aligning. This "coarse" alignment not only resolves the multi-view
inconsistency in geometries but also retains the ability in 2D diffusion models
to generate detailed and diversified high-quality objects unseen in the 3D
datasets. Furthermore, our aligned geometric priors (AGP) are generic and can
be seamlessly integrated into various state-of-the-art pipelines, obtaining
high generalizability in terms of unseen shapes and visual appearance while
greatly alleviating the multi-view inconsistency problem. Our method represents
a new state-of-the-art performance with an 85+% consistency rate by human
evaluation, while many previous methods are around 30%. Our project page is
https://sweetdreamer3d.github.io/
- Abstract(参考訳): 事前学習した拡散モデルからテキストから3D生成のための3次元世界へ2D結果を持ち上げることは本質的に曖昧である。
2次元拡散モデルは、視界に依存しない先行知識のみを学習し、リフト中に3次元知識が欠如し、多視点不整合問題を引き起こす。
この問題は主に幾何学的不整合に起因し、誤配置された幾何学的構造が最終出力の問題を実質的に緩和することを避ける。
そこで, 浮揚時の拡散モデルにおける2次元幾何学的先行と3次元形状との整合性を改善し, 問題の大部分に対処する。
これは、2次元拡散モデルを視点対応に微調整し、正準指向の3次元オブジェクトのビュー固有座標マップを作成することで達成される。
このプロセスでは、粗い3d情報のみを整列に使用する。
この「コアス」アライメントは、ジオメトリのマルチビューの不整合を解消するだけでなく、3dデータセットにない詳細かつ多様化した高品質なオブジェクトを生成する2d拡散モデルの能力も保持する。
さらに,アライメント幾何前駆体 (agp) は汎用的であり,様々な最先端パイプラインにシームレスに統合でき,マルチビュー不整合問題を大幅に緩和しながら,目立たない形状や視覚的な外観で高い一般化性を得ることができる。
提案手法は,人間による評価では85+%の一貫性率で,従来の手法では30%程度であった。
プロジェクトページはhttps://sweetdreamer3d.github.io/
関連論文リスト
- Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - Retrieval-Augmented Score Distillation for Text-to-3D Generation [32.105318004273]
テキストから3D生成における検索に基づく品質向上のための新しいフレームワークを提案する。
我々はRetDreamが幾何整合性を高めて優れた品質を示すことを示すために広範な実験を行った。
論文 参考訳(メタデータ) (2024-02-05T12:50:30Z) - Text-to-3D Generation with Bidirectional Diffusion using both 2D and 3D
priors [16.93758384693786]
双方向拡散(Bidirectional Diffusion、BiDiff)は、3次元と2次元の拡散プロセスの両方を組み込んだ統合フレームワークである。
我々のモデルは高品質で多種多様でスケーラブルな3D生成を実現する。
論文 参考訳(メタデータ) (2023-12-07T10:00:04Z) - GeoDream: Disentangling 2D and Geometric Priors for High-Fidelity and
Consistent 3D Generation [66.46683554587352]
そこで,GeoDreamは,2次元拡散プリエントを持つ明示的な一般化された3Dプリエントを組み込んだ新しい手法である。
具体的には,まず多視点拡散モデルを用いてポーズ画像を生成し,予測画像からコスト容積を構築する。
さらに,3次元の幾何学的先行性を利用して,不整合設計による2次元拡散先行性における3次元認識の大きな可能性を解き放つことを提案する。
論文 参考訳(メタデータ) (2023-11-29T15:48:48Z) - Magic123: One Image to High-Quality 3D Object Generation Using Both 2D
and 3D Diffusion Priors [104.79392615848109]
Magic123は、高品質でテクスチャ化された3Dメッシュのための、2段階の粗大なアプローチである。
最初の段階では、粗い幾何学を生成するために、神経放射場を最適化する。
第2段階では、視覚的に魅力的なテクスチャを持つ高分解能メッシュを生成するために、メモリ効率のよい微分可能なメッシュ表現を採用する。
論文 参考訳(メタデータ) (2023-06-30T17:59:08Z) - 3D-Aware Indoor Scene Synthesis with Depth Priors [62.82867334012399]
既存の手法では、室内配置や内部の物体の多様さのため、屋内シーンのモデル化に失敗する。
室内のシーンは共通な内在構造を持たず、2次元画像のみを用いるだけでは3次元形状のモデルが適切にガイドできない。
論文 参考訳(メタデータ) (2022-02-17T09:54:29Z) - FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。
本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。
私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文 参考訳(メタデータ) (2021-04-22T09:35:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。