論文の概要: Score Distillation via Reparametrized DDIM
- arxiv url: http://arxiv.org/abs/2405.15891v3
- Date: Thu, 10 Oct 2024 09:25:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-11 14:28:52.704734
- Title: Score Distillation via Reparametrized DDIM
- Title(参考訳): DDIMによるスコア蒸留
- Authors: Artem Lukoianov, Haitz Sáez de Ocáriz Borde, Kristjan Greenewald, Vitor Campagnolo Guizilini, Timur Bagautdinov, Vincent Sitzmann, Justin Solomon,
- Abstract要約: スコア蒸留サンプリングで用いられる画像誘導は, 2次元デノベーション生成過程の速度場として理解できることを示す。
本研究では,SDS更新ステップ毎にDDIMを反転させることにより,より優れたノイズ近似を復元可能であることを示す。
本手法は、他の最先端のスコア蒸留法と比較して、より良く、あるいは類似した3D生成品質を実現する。
- 参考スコア(独自算出の注目度): 14.754513907729878
- License:
- Abstract: While 2D diffusion models generate realistic, high-detail images, 3D shape generation methods like Score Distillation Sampling (SDS) built on these 2D diffusion models produce cartoon-like, over-smoothed shapes. To help explain this discrepancy, we show that the image guidance used in Score Distillation can be understood as the velocity field of a 2D denoising generative process, up to the choice of a noise term. In particular, after a change of variables, SDS resembles a high-variance version of Denoising Diffusion Implicit Models (DDIM) with a differently-sampled noise term: SDS introduces noise i.i.d. randomly at each step, while DDIM infers it from the previous noise predictions. This excessive variance can lead to over-smoothing and unrealistic outputs. We show that a better noise approximation can be recovered by inverting DDIM in each SDS update step. This modification makes SDS's generative process for 2D images almost identical to DDIM. In 3D, it removes over-smoothing, preserves higher-frequency detail, and brings the generation quality closer to that of 2D samplers. Experimentally, our method achieves better or similar 3D generation quality compared to other state-of-the-art Score Distillation methods, all without training additional neural networks or multi-view supervision, and providing useful insights into relationship between 2D and 3D asset generation with diffusion models.
- Abstract(参考訳): 2次元拡散モデルが現実的な高精細画像を生成する一方で、これらの2次元拡散モデル上に構築されたスコア蒸留サンプリング(SDS)のような3次元形状生成手法は、漫画のような、過度に滑らかな形状を生成する。
この相違を説明するために, スコア蒸留における画像誘導は, ノイズ項の選択に至るまでの2次元雑音生成過程の速度場として理解可能であることを示す。
特に、変数の変化の後、SDSは異なるサンプリングされたノイズ項を持つDenoising Diffusion Implicit Models (DDIM) の高分散バージョンに似ている: SDSは各ステップでランダムにノイズを導入し、DDIMは以前のノイズ予測からそれを推測する。
この過度の分散は過度に滑らかで非現実的な出力をもたらす。
本研究では,SDS更新ステップ毎にDDIMを反転させることにより,より優れたノイズ近似を復元可能であることを示す。
この修正により、SDSの2次元画像の生成過程はDDIMとほぼ同一である。
3Dでは、過剰な平滑化を除去し、高頻度の細部を保存し、生成品質を2Dサンプルラーに近づける。
実験では,他の最先端のスコア蒸留法と比較して,ニューラルネットワークやマルチビューの監視を訓練することなく,拡散モデルによる2次元と3次元のアセット生成の関係について有用な知見を提供する。
関連論文リスト
- VividDreamer: Invariant Score Distillation For Hyper-Realistic Text-to-3D Generation [33.05759961083337]
Invariant Score Distillation (ISD) を提案する。
ISDは、スコア蒸留サンプリング(SDS)における過飽和および過平滑化問題に対処することを目的としている。
論文 参考訳(メタデータ) (2024-07-13T09:33:16Z) - VividDreamer: Towards High-Fidelity and Efficient Text-to-3D Generation [69.68568248073747]
拡散に基づく3次元生成タスクにおいて, ポーズ依存型連続蒸留サンプリング (PCDS) を提案する。
PCDSは拡散軌道内でポーズ依存整合関数を構築し、最小サンプリングステップで真の勾配を近似することができる。
そこで我々は,まず1ステップのPCDSを用いて3Dオブジェクトの基本構造を作成し,さらに徐々にPCDSのステップを拡大して細かな細部を生成する,粗大な最適化手法を提案する。
論文 参考訳(メタデータ) (2024-06-21T08:21:52Z) - ExactDreamer: High-Fidelity Text-to-3D Content Creation via Exact Score Matching [10.362259643427526]
現在のアプローチは、しばしば3次元合成のために事前訓練された2次元拡散モデルを適用する。
過剰な平滑化は、3Dモデルの高忠実度生成に重大な制限をもたらす。
LucidDreamer は SDS における Denoising Diffusion Probabilistic Model (DDPM) を Denoising Diffusion Implicit Model (DDIM) に置き換える
論文 参考訳(メタデータ) (2024-05-24T20:19:45Z) - Flow Score Distillation for Diverse Text-to-3D Generation [23.38418695449777]
フロースコア蒸留(FSD)は品質を損なうことなく生成の多様性を大幅に向上させる。
各種テキスト・画像拡散モデルを用いた検証実験により、FSDは品質を損なうことなく、生成の多様性を大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-05-16T06:05:16Z) - Diffusion Time-step Curriculum for One Image to 3D Generation [91.07638345953016]
テキストバッフル画像から3Dオブジェクトを再構成する際の見知らぬ視点の欠如を克服するために,スコア蒸留サンプリング(SDS)が広く採用されている。
最適化中の拡散時間ステップの無差別な処理方法として,クルックスが見過ごされていることが判明した。
本稿では,教師モデルと学生モデルの両方が,時間段階のカリキュラムと密接な連携を図ったDiffusion Time-step Curriculum One-image-to-3D Pipeline (DTC123)を提案する。
論文 参考訳(メタデータ) (2024-04-06T09:03:18Z) - Consistent3D: Towards Consistent High-Fidelity Text-to-3D Generation with Deterministic Sampling Prior [87.55592645191122]
スコア蒸留サンプリング(SDS)とその変種は、テキスト・ツー・3D世代の発展を大幅に加速させたが、幾何崩壊やテクスチャの低下に弱い。
テキストから3D生成に先立ってODE決定論的サンプリングを探索する新しい「一貫性3D」手法を提案する。
実験により,高忠実で多様な3Dオブジェクトと大規模シーンの生成にConsistent3Dの有効性が示された。
論文 参考訳(メタデータ) (2024-01-17T08:32:07Z) - NeuSD: Surface Completion with Multi-View Text-to-Image Diffusion [56.98287481620215]
本稿では,対象物の一部のみを捉えた複数の画像から3次元表面再構成を行う手法を提案する。
提案手法は, 表面の可視部分の再構成に神経放射場を用いた表面再構成法と, SDS (Score Distillation Sampling) 方式で事前学習した2次元拡散モデルを用いて, 可観測領域の形状を再現する手法である。
論文 参考訳(メタデータ) (2023-12-07T19:30:55Z) - StableDreamer: Taming Noisy Score Distillation Sampling for Text-to-3D [88.66678730537777]
本稿では3つの進歩を取り入れた方法論であるStableDreamerを紹介する。
まず、SDS生成前の等価性と、簡単な教師付きL2再構成損失を定式化する。
第2に,画像空間拡散は幾何学的精度に寄与するが,色調の鮮明化には潜時空間拡散が不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-02T02:27:58Z) - HD-Fusion: Detailed Text-to-3D Generation Leveraging Multiple Noise
Estimation [43.83459204345063]
本稿では,複数の雑音推定プロセスと事前学習した2次元拡散を併用した新しい手法を提案する。
その結果,提案手法はベースラインと比較して高品質な細部を生成できることが示唆された。
論文 参考訳(メタデータ) (2023-07-30T09:46:22Z) - Improving 3D Imaging with Pre-Trained Perpendicular 2D Diffusion Models [52.529394863331326]
本稿では,2つの垂直2次元拡散モデルを用いて3次元逆問題の解法を提案する。
MRI Z軸超解像, 圧縮センシングMRI, スパースCTなどの3次元医用画像再構成作業に有効である。
論文 参考訳(メタデータ) (2023-03-15T08:28:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。