論文の概要: Consistent3D: Towards Consistent High-Fidelity Text-to-3D Generation
with Deterministic Sampling Prior
- arxiv url: http://arxiv.org/abs/2401.09050v1
- Date: Wed, 17 Jan 2024 08:32:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 16:24:51.430917
- Title: Consistent3D: Towards Consistent High-Fidelity Text-to-3D Generation
with Deterministic Sampling Prior
- Title(参考訳): consistent3d: 決定論的サンプリングを先行した一貫性のある高忠実度テキストから3d生成に向けて
- Authors: Zike Wu, Pan Zhou, Xuanyu Yi, Xiaoding Yuan, Hanwang Zhang
- Abstract要約: スコア蒸留サンプリング(SDS)とその変種は、テキスト・ツー・3D世代の発展を大幅に加速させたが、幾何崩壊やテクスチャの低下に弱い。
テキストから3D生成に先立ってODE決定論的サンプリングを探索する新しい「一貫性3D」手法を提案する。
実験により,高忠実で多様な3Dオブジェクトと大規模シーンの生成にConsistent3Dの有効性が示された。
- 参考スコア(独自算出の注目度): 93.93402145259343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Score distillation sampling (SDS) and its variants have greatly boosted the
development of text-to-3D generation, but are vulnerable to geometry collapse
and poor textures yet. To solve this issue, we first deeply analyze the SDS and
find that its distillation sampling process indeed corresponds to the
trajectory sampling of a stochastic differential equation (SDE): SDS samples
along an SDE trajectory to yield a less noisy sample which then serves as a
guidance to optimize a 3D model. However, the randomness in SDE sampling often
leads to a diverse and unpredictable sample which is not always less noisy, and
thus is not a consistently correct guidance, explaining the vulnerability of
SDS. Since for any SDE, there always exists an ordinary differential equation
(ODE) whose trajectory sampling can deterministically and consistently converge
to the desired target point as the SDE, we propose a novel and effective
"Consistent3D" method that explores the ODE deterministic sampling prior for
text-to-3D generation. Specifically, at each training iteration, given a
rendered image by a 3D model, we first estimate its desired 3D score function
by a pre-trained 2D diffusion model, and build an ODE for trajectory sampling.
Next, we design a consistency distillation sampling loss which samples along
the ODE trajectory to generate two adjacent samples and uses the less noisy
sample to guide another more noisy one for distilling the deterministic prior
into the 3D model. Experimental results show the efficacy of our Consistent3D
in generating high-fidelity and diverse 3D objects and large-scale scenes, as
shown in Fig. 1. The codes are available at
https://github.com/sail-sg/Consistent3D.
- Abstract(参考訳): スコア蒸留サンプリング(sds)とその変種は、テキストから3d生成の発展を大きく促進しているが、幾何の崩壊やテクスチャの貧弱さにはまだ弱い。
この問題を解決するために、まずSDSを深く分析し、その蒸留サンプリングプロセスが、確率微分方程式(SDE)の軌跡サンプリング(SDE: SDS sample along a SDE trajectory)と実際に一致することを発見した。
しかし、SDEサンプリングのランダム性は、しばしば多様で予測不可能なサンプルをもたらすため、常にノイズが少なく、したがってSDSの脆弱性を説明する一貫した正しいガイダンスではない。
任意のSDEに対して、軌道サンプリングがSDEとして所望の目標点に決定的かつ一貫して収束する通常の微分方程式(ODE)が存在するので、テキストから3D生成に先立ってODE決定性サンプリングを探索する新しい「一貫性3D」手法を提案する。
具体的には,3dモデルによるレンダリング画像が与えられた各トレーニングイテレーションにおいて,事前学習した2次元拡散モデルを用いて所望の3dスコア関数を推定し,軌道サンプリングのためのodeを構築する。
次に, ode軌道に沿った試料から隣接する試料を2つ生成する一貫性蒸留サンプリング損失を設計, ノイズの少ない試料を用いてよりノイズの少ない試料を誘導して, 決定論的に3dモデルに蒸留する。
実験結果から,高忠実度・多彩な3Dオブジェクトと大規模シーンの生成にConsistent3Dの有効性が示された。
コードはhttps://github.com/sail-sg/ consistent3dで入手できる。
関連論文リスト
- Text-to-3D Generation with Bidirectional Diffusion using both 2D and 3D
priors [16.93758384693786]
双方向拡散(Bidirectional Diffusion、BiDiff)は、3次元と2次元の拡散プロセスの両方を組み込んだ統合フレームワークである。
我々のモデルは高品質で多種多様でスケーラブルな3D生成を実現する。
論文 参考訳(メタデータ) (2023-12-07T10:00:04Z) - StableDreamer: Taming Noisy Score Distillation Sampling for Text-to-3D [88.66678730537777]
本稿では3つの進歩を取り入れた方法論であるStableDreamerを紹介する。
まず、SDS生成前の等価性と、簡単な教師付きL2再構成損失を定式化する。
第2に,画像空間拡散は幾何学的精度に寄与するが,色調の鮮明化には潜時空間拡散が不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-02T02:27:58Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - Diffusion-based 3D Object Detection with Random Boxes [58.43022365393569]
既存のアンカーベースの3D検出方法は、アンカーの実証的な設定に依存しており、アルゴリズムはエレガンスを欠いている。
提案するDiff3Detは,検出ボックスを生成対象として考慮し,拡散モデルから3次元オブジェクト検出のための提案生成へ移行する。
推論段階では、モデルは予測結果にランダムボックスのセットを徐々に洗練する。
論文 参考訳(メタデータ) (2023-09-05T08:49:53Z) - Sparse3D: Distilling Multiview-Consistent Diffusion for Object
Reconstruction from Sparse Views [47.215089338101066]
スパースビュー入力に適した新しい3D再構成手法であるスパース3Dを提案する。
提案手法は,多視点拡散モデルから頑健な先行情報を抽出し,ニューラルラディアンス場を改良する。
強力な画像拡散モデルから2Dプリエントをタップすることで、我々の統合モデルは、常に高品質な結果をもたらす。
論文 参考訳(メタデータ) (2023-08-27T11:52:00Z) - Efficient Text-Guided 3D-Aware Portrait Generation with Score
Distillation Sampling on Distribution [28.526714129927093]
本研究では,DreamPortraitを提案する。DreamPortraitは,テキスト誘導型3D画像の単一フォワードパスで効率よく作成することを目的としている。
さらに,テキストと3D認識空間の対応をモデルが明示的に知覚できるように,3D対応のゲート・アテンション機構を設計する。
論文 参考訳(メタデータ) (2023-06-03T11:08:38Z) - DreamFusion: Text-to-3D using 2D Diffusion [52.52529213936283]
テキストと画像の合成の最近の進歩は、何十億もの画像と画像のペアで訓練された拡散モデルによって引き起こされている。
本研究では,事前訓練された2次元テキスト・ツー・イメージ拡散モデルを用いてテキスト・ツー・3次元合成を行うことにより,これらの制約を回避する。
提案手法では,3次元トレーニングデータや画像拡散モデルの変更は必要とせず,事前訓練した画像拡散モデルの有効性を実証する。
論文 参考訳(メタデータ) (2022-09-29T17:50:40Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。