Fugu-MT 論文翻訳(概要): SweetDreamer: Aligning Geometric Priors in 2D Diffusion for Consistent Text-to-3D

論文の概要: SweetDreamer: Aligning Geometric Priors in 2D Diffusion for Consistent Text-to-3D

arxiv url: http://arxiv.org/abs/2310.02596v2
Date: Fri, 20 Oct 2023 04:02:22 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-24 02:54:29.056935
Title: SweetDreamer: Aligning Geometric Priors in 2D Diffusion for Consistent Text-to-3D
Title（参考訳）: SweetDreamer: テキストから3Dへの2次元拡散における幾何学的優先順位の調整
Authors: Weiyu Li, Rui Chen, Xuelin Chen, Ping Tan
Abstract要約: 事前学習した拡散モデルからテキストから3D生成のための3次元世界へ2D結果を持ち上げることは本質的に不明瞭である。昇降時の3次元形状をよく定義した拡散モデルにおける2次元幾何学的先行を整列させて整合性を向上させる。提案手法は,人間の評価によって85%以上の一貫性を有する新しい最先端性能を示す。
参考スコア（独自算出の注目度）: 40.088688751115214
License: http://creativecommons.org/licenses/by/4.0/
Abstract: It is inherently ambiguous to lift 2D results from pre-trained diffusion models to a 3D world for text-to-3D generation. 2D diffusion models solely learn view-agnostic priors and thus lack 3D knowledge during the lifting, leading to the multi-view inconsistency problem. We find that this problem primarily stems from geometric inconsistency, and avoiding misplaced geometric structures substantially mitigates the problem in the final outputs. Therefore, we improve the consistency by aligning the 2D geometric priors in diffusion models with well-defined 3D shapes during the lifting, addressing the vast majority of the problem. This is achieved by fine-tuning the 2D diffusion model to be viewpoint-aware and to produce view-specific coordinate maps of canonically oriented 3D objects. In our process, only coarse 3D information is used for aligning. This "coarse" alignment not only resolves the multi-view inconsistency in geometries but also retains the ability in 2D diffusion models to generate detailed and diversified high-quality objects unseen in the 3D datasets. Furthermore, our aligned geometric priors (AGP) are generic and can be seamlessly integrated into various state-of-the-art pipelines, obtaining high generalizability in terms of unseen shapes and visual appearance while greatly alleviating the multi-view inconsistency problem. Our method represents a new state-of-the-art performance with an 85+% consistency rate by human evaluation, while many previous methods are around 30%. Our project page is https://sweetdreamer3d.github.io/
Abstract（参考訳）: 事前学習した拡散モデルからテキストから3D生成のための3次元世界へ2D結果を持ち上げることは本質的に曖昧である。 2次元拡散モデルは、視界に依存しない先行知識のみを学習し、リフト中に3次元知識が欠如し、多視点不整合問題を引き起こす。この問題は主に幾何学的不整合に起因し、誤配置された幾何学的構造が最終出力の問題を実質的に緩和することを避ける。そこで, 浮揚時の拡散モデルにおける2次元幾何学的先行と3次元形状との整合性を改善し, 問題の大部分に対処する。これは、2次元拡散モデルを視点対応に微調整し、正準指向の3次元オブジェクトのビュー固有座標マップを作成することで達成される。このプロセスでは、粗い3d情報のみを整列に使用する。この「コアス」アライメントは、ジオメトリのマルチビューの不整合を解消するだけでなく、3dデータセットにない詳細かつ多様化した高品質なオブジェクトを生成する2d拡散モデルの能力も保持する。さらに,アライメント幾何前駆体 (agp) は汎用的であり,様々な最先端パイプラインにシームレスに統合でき,マルチビュー不整合問題を大幅に緩和しながら,目立たない形状や視覚的な外観で高い一般化性を得ることができる。提案手法は,人間による評価では85+%の一貫性率で,従来の手法では30%程度であった。プロジェクトページはhttps://sweetdreamer3d.github.io/

関連論文リスト

Perspective from a Higher Dimension: Can 3D Geometric Priors Help Visual Floorplan Localization? [8.82283453148819]
建物のフロアプランの自己ローカライズは研究者の興味を引き付けている。フロアプランは建物の構造を最小限に表現するので、視覚的知覚とフロアプランの様相や幾何学的差異がこの課題に挑戦する。既存の手法では、2次元幾何学的特徴とポーズフィルタを巧みに利用して有望な性能を実現する。本稿では,2次元フロアプランの局所化問題を視覚的FLOCアルゴリズムに3次元幾何学的先行点を注入することにより高次元から考察する。
論文参考訳（メタデータ） (2025-07-25T01:34:26Z)
Deep Geometric Moments Promote Shape Consistency in Text-to-3D Generation [27.43973967994717]
MT3Dは高忠実度3Dオブジェクトを利用して視点バイアスを克服するテキスト・ツー・3D生成モデルである。生成した2次元画像が基本形状と構造を保持することを保証するために,高品質な3次元モデルから導出される深度マップを制御信号として利用する。 3Dアセットから幾何学的詳細を取り入れることで、MT3Dは多様で幾何学的に一貫したオブジェクトを作成することができる。
論文参考訳（メタデータ） (2024-08-12T06:25:44Z)
DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文参考訳（メタデータ） (2024-06-06T17:58:15Z)
Any2Point: Empowering Any-modality Large Models for Efficient 3D Understanding [83.63231467746598]
我々は,Any2Pointというパラメータ効率のよい大規模モデル(ビジョン,言語,音声)を3次元理解に活用する手法を紹介した。入力された3Dポイントと元の1Dまたは2D位置との相関関係を示す3D-to-any (1Dまたは2D)仮想プロジェクション戦略を提案する。
論文参考訳（メタデータ） (2024-04-11T17:59:45Z)
Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文参考訳（メタデータ） (2024-03-14T07:39:59Z)
Retrieval-Augmented Score Distillation for Text-to-3D Generation [30.57225047257049]
テキストから3D生成における検索に基づく品質向上のための新しいフレームワークを提案する。我々はReDreamが幾何整合性を高めて優れた品質を示すことを示すために広範な実験を行った。
論文参考訳（メタデータ） (2024-02-05T12:50:30Z)
GeoDream: Disentangling 2D and Geometric Priors for High-Fidelity and Consistent 3D Generation [66.46683554587352]
そこで,GeoDreamは,2次元拡散プリエントを持つ明示的な一般化された3Dプリエントを組み込んだ新しい手法である。具体的には,まず多視点拡散モデルを用いてポーズ画像を生成し,予測画像からコスト容積を構築する。さらに,3次元の幾何学的先行性を利用して,不整合設計による2次元拡散先行性における3次元認識の大きな可能性を解き放つことを提案する。
論文参考訳（メタデータ） (2023-11-29T15:48:48Z)
Magic123: One Image to High-Quality 3D Object Generation Using Both 2D and 3D Diffusion Priors [104.79392615848109]
Magic123は、高品質でテクスチャ化された3Dメッシュのための、2段階の粗大なアプローチである。最初の段階では、粗い幾何学を生成するために、神経放射場を最適化する。第2段階では、視覚的に魅力的なテクスチャを持つ高分解能メッシュを生成するために、メモリ効率のよい微分可能なメッシュ表現を採用する。
論文参考訳（メタデータ） (2023-06-30T17:59:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。