論文の概要: Let 2D Diffusion Model Know 3D-Consistency for Robust Text-to-3D
Generation
- arxiv url: http://arxiv.org/abs/2303.07937v3
- Date: Thu, 16 Mar 2023 09:03:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 11:33:01.814639
- Title: Let 2D Diffusion Model Know 3D-Consistency for Robust Text-to-3D
Generation
- Title(参考訳): 2次元拡散モデルにロバストテキスト-3次元生成のための3次元一貫性を知らせる
- Authors: Junyoung Seo, Wooseok Jang, Min-Seop Kwak, Jaehoon Ko, Hyeonsu Kim,
Junho Kim, Jin-Hwa Kim, Jiyoung Lee, Seungryong Kim
- Abstract要約: 3DFuseは、事前訓練された2D拡散モデルに3D認識を組み込む新しいフレームワークである。
本研究では,2次元拡散モデルを用いて,粗い3次元構造内の誤差や空間の分散を学習し,ロバストな生成を可能にするトレーニング戦略を提案する。
- 参考スコア(独自算出の注目度): 29.23033279093719
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-3D generation has shown rapid progress in recent days with the advent
of score distillation, a methodology of using pretrained text-to-2D diffusion
models to optimize neural radiance field (NeRF) in the zero-shot setting.
However, the lack of 3D awareness in the 2D diffusion models destabilizes score
distillation-based methods from reconstructing a plausible 3D scene. To address
this issue, we propose 3DFuse, a novel framework that incorporates 3D awareness
into pretrained 2D diffusion models, enhancing the robustness and 3D
consistency of score distillation-based methods. We realize this by first
constructing a coarse 3D structure of a given text prompt and then utilizing
projected, view-specific depth map as a condition for the diffusion model.
Additionally, we introduce a training strategy that enables the 2D diffusion
model learns to handle the errors and sparsity within the coarse 3D structure
for robust generation, as well as a method for ensuring semantic consistency
throughout all viewpoints of the scene. Our framework surpasses the limitations
of prior arts, and has significant implications for 3D consistent generation of
2D diffusion models.
- Abstract(参考訳): テキスト対3d生成は、前訓練されたテキスト対2d拡散モデルを用いてゼロショット設定で神経放射場(nerf)を最適化する手法であるスコア蒸留の出現により、近年急速に進歩している。
しかし, 2次元拡散モデルにおける3次元認識の欠如は, スコア蒸留法による3次元シーンの再構成を不安定にする。
そこで本研究では,事前学習した2次元拡散モデルに3次元認識を組み込んだ新しいフレームワークである3dfuseを提案する。
まず,与えられたテキストプロンプトの粗い3次元構造を構築し,拡散モデルの条件として投影された視点特異的深度マップを用いた。
さらに,ロバストな生成のための粗い3次元構造内の誤差や空間性を扱う2次元拡散モデルの学習を可能にするトレーニング戦略と,シーンのすべての視点において意味的一貫性を確保する手法を導入する。
我々の枠組みは, 先行技術の限界を超え, 2次元拡散モデルの3次元整合生成に大きな影響を与える。
関連論文リスト
- Score Jacobian Chaining: Lifting Pretrained 2D Diffusion Models for 3D
Generation [28.25023686484727]
拡散モデルは勾配のベクトル場を予測することを学習する。
学習した勾配の連鎖則を提案し、微分可能場のヤコビアンを通して拡散モデルのスコアをバックプロパゲートする。
大規模なLAIONデータセットでトレーニングされたStable Diffusionを含む,市販の拡散画像生成モデル上で,アルゴリズムを実行する。
論文 参考訳(メタデータ) (2022-12-01T18:56:37Z) - 3D Neural Field Generation using Triplane Diffusion [37.46688195622667]
ニューラルネットワークの3次元認識のための効率的な拡散ベースモデルを提案する。
当社のアプローチでは,ShapeNetメッシュなどのトレーニングデータを,連続的占有フィールドに変換することによって前処理する。
本論文では,ShapeNetのオブジェクトクラスにおける3D生成の現状について述べる。
論文 参考訳(メタデータ) (2022-11-30T01:55:52Z) - RenderDiffusion: Image Diffusion for 3D Reconstruction, Inpainting and
Generation [65.50854243205366]
我々はRenderDiffusionを3次元生成と推論のための最初の拡散モデルとして提示する。
本研究では,3次元シーンの生成と2次元画像からの3次元シーンの推測のための競合性能を示す。
私たちの研究は、大規模な画像コレクションでトレーニングされた時に、大規模な3D生成を可能にすることを約束します。
論文 参考訳(メタデータ) (2022-11-17T20:17:04Z) - DreamFusion: Text-to-3D using 2D Diffusion [52.52529213936283]
テキストと画像の合成の最近の進歩は、何十億もの画像と画像のペアで訓練された拡散モデルによって引き起こされている。
本研究では,事前訓練された2次元テキスト・ツー・イメージ拡散モデルを用いてテキスト・ツー・3次元合成を行うことにより,これらの制約を回避する。
提案手法では,3次元トレーニングデータや画像拡散モデルの変更は必要とせず,事前訓練した画像拡散モデルの有効性を実証する。
論文 参考訳(メタデータ) (2022-09-29T17:50:40Z) - RiCS: A 2D Self-Occlusion Map for Harmonizing Volumetric Objects [68.85305626324694]
カメラ空間における光マーチング (RiCS) は、3次元における前景物体の自己閉塞を2次元の自己閉塞マップに表現する新しい手法である。
表現マップは画像の質を高めるだけでなく,時間的コヒーレントな複雑な影効果をモデル化できることを示す。
論文 参考訳(メタデータ) (2022-05-14T05:35:35Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z) - Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic
Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。
3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。
我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文 参考訳(メタデータ) (2020-08-04T13:56:19Z) - Exemplar Fine-Tuning for 3D Human Model Fitting Towards In-the-Wild 3D
Human Pose Estimation [107.07047303858664]
3次元の地平線アノテーションを持つ大規模な人的データセットは、野生では入手が困難である。
既存の2Dデータセットを高品質な3Dポーズマッチングで拡張することで、この問題に対処する。
結果として得られるアノテーションは、3Dのプロシージャネットワークをスクラッチからトレーニングするのに十分である。
論文 参考訳(メタデータ) (2020-04-07T20:21:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。