論文の概要: StableDreamer: Taming Noisy Score Distillation Sampling for Text-to-3D
- arxiv url: http://arxiv.org/abs/2312.02189v1
- Date: Sat, 2 Dec 2023 02:27:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 18:33:34.283274
- Title: StableDreamer: Taming Noisy Score Distillation Sampling for Text-to-3D
- Title(参考訳): StableDreamer: テキストから3Dへのノイズスコア蒸留サンプリング
- Authors: Pengsheng Guo, Hans Hao, Adam Caccavale, Zhongzheng Ren, Edward Zhang,
Qi Shan, Aditya Sankar, Alexander G. Schwing, Alex Colburn, Fangchang Ma
- Abstract要約: 本稿では3つの進歩を取り入れた方法論であるStableDreamerを紹介する。
まず、SDS生成前の等価性と、簡単な教師付きL2再構成損失を定式化する。
第2に,画像空間拡散は幾何学的精度に寄与するが,色調の鮮明化には潜時空間拡散が不可欠であることを示す。
- 参考スコア(独自算出の注目度): 88.66678730537777
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the realm of text-to-3D generation, utilizing 2D diffusion models through
score distillation sampling (SDS) frequently leads to issues such as blurred
appearances and multi-faced geometry, primarily due to the intrinsically noisy
nature of the SDS loss. Our analysis identifies the core of these challenges as
the interaction among noise levels in the 2D diffusion process, the
architecture of the diffusion network, and the 3D model representation. To
overcome these limitations, we present StableDreamer, a methodology
incorporating three advances. First, inspired by InstructNeRF2NeRF, we
formalize the equivalence of the SDS generative prior and a simple supervised
L2 reconstruction loss. This finding provides a novel tool to debug SDS, which
we use to show the impact of time-annealing noise levels on reducing
multi-faced geometries. Second, our analysis shows that while image-space
diffusion contributes to geometric precision, latent-space diffusion is crucial
for vivid color rendition. Based on this observation, StableDreamer introduces
a two-stage training strategy that effectively combines these aspects,
resulting in high-fidelity 3D models. Third, we adopt an anisotropic 3D
Gaussians representation, replacing Neural Radiance Fields (NeRFs), to enhance
the overall quality, reduce memory usage during training, and accelerate
rendering speeds, and better capture semi-transparent objects. StableDreamer
reduces multi-face geometries, generates fine details, and converges stably.
- Abstract(参考訳): テキストから3D生成の領域において、スコア蒸留サンプリング(SDS)による2次元拡散モデルの利用は、主にSDS損失の本質的なノイズの性質のために、ぼやけた外観や多面形状などの問題を引き起こすことが多い。
本研究では,これらの課題の中核を,2次元拡散過程における雑音レベルの相互作用,拡散ネットワークのアーキテクチャ,および3次元モデル表現として捉えた。
これらの制限を克服するために,3つの進歩を取り入れたStableDreamerを提案する。
まず、InstructNeRF2NeRFにインスパイアされ、SDS生成前の等価性と簡単な教師付きL2再構成損失を定式化する。
この発見は、sdsをデバッグするための新しいツールを提供し、マルチフェイスジオメトリの削減に対する時間的アネアリングノイズレベルの影響を示すために使用します。
第2に,画像空間拡散は幾何学的精度に寄与するが,色調の鮮明化には潜時空間拡散が不可欠であることを示す。
この観察に基づいて、StableDreamerは2段階のトレーニング戦略を導入し、これらの側面を効果的に組み合わせ、高忠実度3Dモデルを実現する。
第三に、異方性3Dガウス表現を採用し、Neural Radiance Fields(NeRF)を置き換え、全体的な品質を高め、トレーニング中のメモリ使用量を削減し、レンダリング速度を高速化し、半透明オブジェクトのキャプチャーを改善する。
stabledreamerはマルチフェイスのジオメトリを削減し、詳細を生成し、安定して収束する。
関連論文リスト
- DSplats: 3D Generation by Denoising Splats-Based Multiview Diffusion Models [67.50989119438508]
本稿では,ガウスをベースとしたレコンストラクタを用いて,リアルな3Dアセットを生成することで,マルチビュー画像を直接認識するDSplatを紹介した。
実験の結果,DSplatsは高品質で空間的に一貫した出力を生成できるだけでなく,単一画像から3次元再構成への新たな標準も設定できることがわかった。
論文 参考訳(メタデータ) (2024-12-11T07:32:17Z) - A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本研究では,ガウスプレートの拡散モデルであるSplatDiffusionを導入し,単一画像から3次元構造を生成する。
既存の方法は決定論的フィードフォワード予測に依存しており、2Dデータからの3D推論の本質的な曖昧さを扱う能力を制限する。
論文 参考訳(メタデータ) (2024-12-01T00:29:57Z) - From Diffusion to Resolution: Leveraging 2D Diffusion Models for 3D Super-Resolution Task [19.56372155146739]
本稿では,3次元電子顕微鏡(vEM)の超解像性を高めるために,2次元拡散モデルと体積内の横方向の連続性を利用する新しい手法を提案する。
イオンビーム走査型電子顕微鏡(FIB-SEM)の2つのデータを用いて,本フレームワークのロバスト性と実用性を示した。
論文 参考訳(メタデータ) (2024-11-25T09:12:55Z) - FlowDreamer: Exploring High Fidelity Text-to-3D Generation via Rectified Flow [17.919092916953183]
本研究では,フロードレーマーという新しいフレームワークを提案し,よりリッチなテキストの詳細とより高速なコンバージェンスで高忠実度な結果を得る。
鍵となる洞察は、修正流れモデルの結合性と可逆性を利用して、対応する雑音を探索することである。
我々は,同じ軌道に沿って3次元モデルを最適化するために,新しい一様マッチング結合(UCM)損失を導入する。
論文 参考訳(メタデータ) (2024-08-09T11:40:20Z) - VividDreamer: Towards High-Fidelity and Efficient Text-to-3D Generation [69.68568248073747]
拡散に基づく3次元生成タスクにおいて, ポーズ依存型連続蒸留サンプリング (PCDS) を提案する。
PCDSは拡散軌道内でポーズ依存整合関数を構築し、最小サンプリングステップで真の勾配を近似することができる。
そこで我々は,まず1ステップのPCDSを用いて3Dオブジェクトの基本構造を作成し,さらに徐々にPCDSのステップを拡大して細かな細部を生成する,粗大な最適化手法を提案する。
論文 参考訳(メタデータ) (2024-06-21T08:21:52Z) - UniDream: Unifying Diffusion Priors for Relightable Text-to-3D Generation [101.2317840114147]
We present UniDream, a text-to-3D generation framework by integration priors。
提案手法は,(1)アルベド正規配位型多視点拡散・再構成モデルを得るための2相学習プロセス,(2)訓練された再構成・拡散モデルを用いたスコア蒸留サンプル(SDS)に基づく幾何およびアルベドテクスチャのプログレッシブ生成手順,(3)安定拡散モデルに基づく固定アルベドを保ちながらPBR生成を確定するSDSの革新的な応用,の3つからなる。
論文 参考訳(メタデータ) (2023-12-14T09:07:37Z) - NeuSD: Surface Completion with Multi-View Text-to-Image Diffusion [56.98287481620215]
本稿では,対象物の一部のみを捉えた複数の画像から3次元表面再構成を行う手法を提案する。
提案手法は, 表面の可視部分の再構成に神経放射場を用いた表面再構成法と, SDS (Score Distillation Sampling) 方式で事前学習した2次元拡散モデルを用いて, 可観測領域の形状を再現する手法である。
論文 参考訳(メタデータ) (2023-12-07T19:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。