論文の概要: Let 2D Diffusion Model Know 3D-Consistency for Robust Text-to-3D
Generation
- arxiv url: http://arxiv.org/abs/2303.07937v1
- Date: Tue, 14 Mar 2023 14:24:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 14:44:46.235451
- Title: Let 2D Diffusion Model Know 3D-Consistency for Robust Text-to-3D
Generation
- Title(参考訳): 2次元拡散モデルにロバストテキスト-3次元生成のための3次元一貫性を知らせる
- Authors: Junyoung Seo, Wooseok Jang, Min-Seop Kwak, Jaehoon Ko, Hyeonsu Kim,
Junho Kim, Jin-Hwa Kim, Jiyoung Lee, Seungryong Kim
- Abstract要約: 本稿では,事前学習した2次元拡散モデルに3次元認識を組み込んだ新しいフレームワークを提案する。
この枠組みは先行技術の限界を超越し,3次元拡散モデルの生成に重要な意味を持つ。
- 参考スコア(独自算出の注目度): 29.23033279093719
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-3D generation has shown rapid progress in recent days with the advent
of score distillation, a methodology of using pretrained text-to-2D diffusion
models to optimize neural radiance field (NeRF) in the zero-shot setting.
However, the lack of 3D awareness in the 2D diffusion models destabilizes score
distillation-based methods from reconstructing a plausible 3D scene. To address
this issue, we propose \ours, a novel framework that incorporates 3D awareness
into pretrained 2D diffusion models, enhancing the robustness and 3D
consistency of score distillation-based methods. We realize this by first
constructing a coarse 3D structure of a given text prompt and then utilizing
projected, view-specific depth map as a condition for the diffusion model.
Additionally, we introduce a training strategy that enables the 2D diffusion
model learns to handle the errors and sparsity within the coarse 3D structure
for robust generation, as well as a method for ensuring semantic consistency
throughout all viewpoints of the scene. Our framework surpasses the limitations
of prior arts, and has significant implications for 3D consistent generation of
2D diffusion models.
- Abstract(参考訳): テキスト対3d生成は、前訓練されたテキスト対2d拡散モデルを用いてゼロショット設定で神経放射場(nerf)を最適化する手法であるスコア蒸留の出現により、近年急速に進歩している。
しかし, 2次元拡散モデルにおける3次元認識の欠如は, スコア蒸留法による3次元シーンの再構成を不安定にする。
この問題に対処するため,我々は,事前学習した2次元拡散モデルに3次元認識を組み込んだ新しいフレームワークであるShaoursを提案する。
まず,与えられたテキストプロンプトの粗い3次元構造を構築し,拡散モデルの条件として投影された視点特異的深度マップを用いた。
さらに,ロバストな生成のための粗い3次元構造内の誤差や空間性を扱う2次元拡散モデルの学習を可能にするトレーニング戦略と,シーンのすべての視点において意味的一貫性を確保する手法を導入する。
我々の枠組みは, 先行技術の限界を超え, 2次元拡散モデルの3次元整合生成に大きな影響を与える。
関連論文リスト
- Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - PI3D: Efficient Text-to-3D Generation with Pseudo-Image Diffusion [19.951329726916654]
PI3Dは、事前訓練されたテキスト-画像拡散モデルを用いて、高品質な3D形状を数分で生成する新しいフレームワークである。
事前学習した2次元拡散モデルを3次元拡散モデルに微調整し、3次元生成能力と2次元モデルから派生した一般化の両方を可能にする。
2次元拡散モデルのスコア蒸留サンプリングを利用して、サンプリングした3次元形状の品質を迅速に向上する。
論文 参考訳(メタデータ) (2023-12-14T16:04:34Z) - Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D
Prior [52.44678180286886]
2次元拡散モデルでは、3次元データなしで優れた一般化と豊富な詳細を実現する蒸留手法が見つかる。
提案するSherpa3Dは,高忠実度,一般化性,幾何整合性を同時に実現する新しいテキスト・ツー・3Dフレームワークである。
論文 参考訳(メタデータ) (2023-12-11T18:59:18Z) - Text-to-3D Generation with Bidirectional Diffusion using both 2D and 3D
priors [16.93758384693786]
双方向拡散(Bidirectional Diffusion、BiDiff)は、3次元と2次元の拡散プロセスの両方を組み込んだ統合フレームワークである。
我々のモデルは高品質で多種多様でスケーラブルな3D生成を実現する。
論文 参考訳(メタデータ) (2023-12-07T10:00:04Z) - X-Dreamer: Creating High-quality 3D Content by Bridging the Domain Gap
Between Text-to-2D and Text-to-3D Generation [64.12848271290119]
X-Dreamerは高品質なテキストから3Dコンテンツを作成するための新しいアプローチである。
テキスト対2D合成とテキスト対3D合成のギャップを埋める。
論文 参考訳(メタデータ) (2023-11-30T07:23:00Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - ARTIC3D: Learning Robust Articulated 3D Shapes from Noisy Web Image
Collections [71.46546520120162]
単眼画像から動物体のような3D関節形状を推定することは、本質的に困難である。
本稿では,スパース画像コレクションから各物体の形状を再構築する自己教師型フレームワークARTIC3Dを提案する。
我々は、剛性部分変換の下で、描画された形状とテクスチャを微調整することで、現実的なアニメーションを作成する。
論文 参考訳(メタデータ) (2023-06-07T17:47:50Z) - DreamFusion: Text-to-3D using 2D Diffusion [52.52529213936283]
テキストと画像の合成の最近の進歩は、何十億もの画像と画像のペアで訓練された拡散モデルによって引き起こされている。
本研究では,事前訓練された2次元テキスト・ツー・イメージ拡散モデルを用いてテキスト・ツー・3次元合成を行うことにより,これらの制約を回避する。
提案手法では,3次元トレーニングデータや画像拡散モデルの変更は必要とせず,事前訓練した画像拡散モデルの有効性を実証する。
論文 参考訳(メタデータ) (2022-09-29T17:50:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。