論文の概要: Dreamer XL: Towards High-Resolution Text-to-3D Generation via Trajectory Score Matching
- arxiv url: http://arxiv.org/abs/2405.11252v1
- Date: Sat, 18 May 2024 10:41:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 18:38:17.610944
- Title: Dreamer XL: Towards High-Resolution Text-to-3D Generation via Trajectory Score Matching
- Title(参考訳): Dreamer XL: 軌道スコアマッチングによる高分解能テキスト・ツー・3D生成を目指して
- Authors: Xingyu Miao, Haoran Duan, Varun Ojha, Jun Song, Tejal Shah, Yang Long, Rajiv Ranjan,
- Abstract要約: Trajectory Score Matching (TSM) は、Interval Score Matching (ISM) における累積誤差に起因する疑似基底真理不整合問題を解決することを目的としている。
我々の TSM 法は DDIM の逆転過程を利用して, 計算開始点から 2 つの経路を生成する。
高解像度テキストから3次元生成までの現在の多段階最適化プロセスを最適化するために、ガイダンスに安定拡散XLを採用する。
- 参考スコア(独自算出の注目度): 9.796880796900242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we propose a novel Trajectory Score Matching (TSM) method that aims to solve the pseudo ground truth inconsistency problem caused by the accumulated error in Interval Score Matching (ISM) when using the Denoising Diffusion Implicit Models (DDIM) inversion process. Unlike ISM which adopts the inversion process of DDIM to calculate on a single path, our TSM method leverages the inversion process of DDIM to generate two paths from the same starting point for calculation. Since both paths start from the same starting point, TSM can reduce the accumulated error compared to ISM, thus alleviating the problem of pseudo ground truth inconsistency. TSM enhances the stability and consistency of the model's generated paths during the distillation process. We demonstrate this experimentally and further show that ISM is a special case of TSM. Furthermore, to optimize the current multi-stage optimization process from high-resolution text to 3D generation, we adopt Stable Diffusion XL for guidance. In response to the issues of abnormal replication and splitting caused by unstable gradients during the 3D Gaussian splatting process when using Stable Diffusion XL, we propose a pixel-by-pixel gradient clipping method. Extensive experiments show that our model significantly surpasses the state-of-the-art models in terms of visual quality and performance. Code: \url{https://github.com/xingy038/Dreamer-XL}.
- Abstract(参考訳): そこで本研究では,DDIM(Denoising Diffusion Implicit Models)のインバージョンプロセスにおいて,ISM(Interval Score Matching)の累積誤差に起因する疑似基底真理不整合問題を解決することを目的とした,新しいトラジェクティブスコアマッチング法を提案する。
DDIMの逆過程を1つの経路で計算するISMとは異なり、我々のTSM法はDDIMの逆過程を利用して計算の出発点から2つの経路を生成する。
どちらの経路も同じ出発点から始まるため、TSMはISMと比較して累積誤差を低減できるため、疑似基底真理の不整合の問題を軽減することができる。
TSMは、蒸留プロセス中にモデルが生成した経路の安定性と一貫性を高める。
ISMはTSMの特殊な症例であることを示す。
さらに,高解像度テキストから3次元生成までの多段階最適化プロセスの最適化のために,安定拡散XLをガイダンスとして採用する。
安定拡散XLを用いた場合の3次元ガウス平滑化過程における異常な複製と不安定な勾配による分裂の問題に対して,ピクセル・バイ・ピクセル・グラデーション・クリッピング法を提案する。
広汎な実験により、我々のモデルは視覚的品質と性能の点で最先端のモデルを大幅に上回っていることが明らかとなった。
コード: \url{https://github.com/xingy038/Dreamer-XL}
関連論文リスト
- Correspondence-Guided SfM-Free 3D Gaussian Splatting for NVS [52.3215552448623]
SfM(Structure-from-Motion)事前処理カメラのポーズのない新しいビュー合成(NVS)は、迅速な応答能力の向上と、可変動作条件に対する堅牢性の向上に不可欠である。
最近のSfMフリー手法は、ポーズ最適化を統合し、共同カメラのポーズ推定とNVSのためのエンドツーエンドフレームワークを設計している。
既存の作業の多くは、L2損失のようなピクセル単位の画像損失関数に依存している。
本研究では,NVSのためのSfMフリー3次元ガウススプラッティングを提案する。
論文 参考訳(メタデータ) (2024-08-16T13:11:22Z) - FlowDreamer: Exploring High Fidelity Text-to-3D Generation via Rectified Flow [17.919092916953183]
本研究では,フロードレーマーという新しいフレームワークを提案し,よりリッチなテキストの詳細とより高速なコンバージェンスで高忠実度な結果を得る。
鍵となる洞察は、修正流れモデルの結合性と可逆性を利用して、対応する雑音を探索することである。
我々は,同じ軌道に沿って3次元モデルを最適化するために,新しい一様マッチング結合(UCM)損失を導入する。
論文 参考訳(メタデータ) (2024-08-09T11:40:20Z) - ExactDreamer: High-Fidelity Text-to-3D Content Creation via Exact Score Matching [10.362259643427526]
現在のアプローチは、しばしば3次元合成のために事前訓練された2次元拡散モデルを適用する。
過剰な平滑化は、3Dモデルの高忠実度生成に重大な制限をもたらす。
LucidDreamer は SDS における Denoising Diffusion Probabilistic Model (DDPM) を Denoising Diffusion Implicit Model (DDIM) に置き換える
論文 参考訳(メタデータ) (2024-05-24T20:19:45Z) - Bidirectional Consistency Models [1.486435467709869]
拡散モデル(DM)は、ランダムなベクトルを反復的に分解することで高品質なサンプルを生成する。
DMは確率フロー常微分方程式(PF ODE)に沿って後方に移動することによって入力画像から雑音への逆変換を行うことができる
論文 参考訳(メタデータ) (2024-03-26T18:40:36Z) - BlindDiff: Empowering Degradation Modelling in Diffusion Models for Blind Image Super-Resolution [52.47005445345593]
BlindDiff は SISR のブラインド劣化に対処するための DM ベースのブラインドSR 手法である。
BlindDiffはMAPベースの最適化をDMにシームレスに統合する。
合成データセットと実世界のデータセットの両方の実験は、BlindDiffが最先端のパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2024-03-15T11:21:34Z) - Consistent3D: Towards Consistent High-Fidelity Text-to-3D Generation with Deterministic Sampling Prior [87.55592645191122]
スコア蒸留サンプリング(SDS)とその変種は、テキスト・ツー・3D世代の発展を大幅に加速させたが、幾何崩壊やテクスチャの低下に弱い。
テキストから3D生成に先立ってODE決定論的サンプリングを探索する新しい「一貫性3D」手法を提案する。
実験により,高忠実で多様な3Dオブジェクトと大規模シーンの生成にConsistent3Dの有効性が示された。
論文 参考訳(メタデータ) (2024-01-17T08:32:07Z) - SD-MVS: Segmentation-Driven Deformation Multi-View Stereo with Spherical
Refinement and EM optimization [6.886220026399106]
テクスチャレス領域の3次元再構成における課題を解決するために,多視点ステレオ (SD-MVS) を導入する。
私たちは、シーン内のセグメンテーションインスタンスを区別するためにSAM(Segment Anything Model)を採用した最初の人です。
球面座標と正規点の勾配勾配と深度の画素方向探索間隔を組み合わせた独自の精細化戦略を提案する。
論文 参考訳(メタデータ) (2024-01-12T05:25:57Z) - StableDreamer: Taming Noisy Score Distillation Sampling for Text-to-3D [88.66678730537777]
本稿では3つの進歩を取り入れた方法論であるStableDreamerを紹介する。
まず、SDS生成前の等価性と、簡単な教師付きL2再構成損失を定式化する。
第2に,画像空間拡散は幾何学的精度に寄与するが,色調の鮮明化には潜時空間拡散が不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-02T02:27:58Z) - Gaussian Mixture Solvers for Diffusion Models [84.83349474361204]
本稿では,拡散モデルのためのGMSと呼ばれる,SDEに基づく新しい解法について紹介する。
画像生成およびストロークベース合成におけるサンプル品質の観点から,SDEに基づく多くの解法よりも優れる。
論文 参考訳(メタデータ) (2023-11-02T02:05:38Z) - Orthogonal Matrix Retrieval with Spatial Consensus for 3D Unknown-View
Tomography [58.60249163402822]
未知視トモグラフィ(UVT)は、未知のランダムな向きで2次元投影から3次元密度マップを再構成する。
提案したOMRはより堅牢で、従来の最先端のOMRアプローチよりも大幅に性能が向上している。
論文 参考訳(メタデータ) (2022-07-06T21:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。