論文の概要: DreamLCM: Towards High-Quality Text-to-3D Generation via Latent Consistency Model
- arxiv url: http://arxiv.org/abs/2408.02993v1
- Date: Tue, 6 Aug 2024 06:59:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-07 14:49:26.954632
- Title: DreamLCM: Towards High-Quality Text-to-3D Generation via Latent Consistency Model
- Title(参考訳): DreamLCM:潜時一貫性モデルによる高品質テキスト・ツー・3D生成を目指して
- Authors: Yiming Zhong, Xiaolin Zhang, Yao Zhao, Yunchao Wei,
- Abstract要約: 本稿では,LCM(Latent Consistency Model)を組み込んだDreamLCMを提案する。
提案手法は, 対象3次元モデルの最適化のために, 高精度かつ詳細な勾配を与えることができる。
実験により、DreamLCMは、生成品質とトレーニング効率の両方で最先端の結果が得られることが示された。
- 参考スコア(独自算出の注目度): 77.84225358245487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the text-to-3D task has developed rapidly due to the appearance of the SDS method. However, the SDS method always generates 3D objects with poor quality due to the over-smooth issue. This issue is attributed to two factors: 1) the DDPM single-step inference produces poor guidance gradients; 2) the randomness from the input noises and timesteps averages the details of the 3D contents.In this paper, to address the issue, we propose DreamLCM which incorporates the Latent Consistency Model (LCM). DreamLCM leverages the powerful image generation capabilities inherent in LCM, enabling generating consistent and high-quality guidance, i.e., predicted noises or images. Powered by the improved guidance, the proposed method can provide accurate and detailed gradients to optimize the target 3D models.In addition, we propose two strategies to enhance the generation quality further. Firstly, we propose a guidance calibration strategy, utilizing Euler Solver to calibrate the guidance distribution to accelerate 3D models to converge. Secondly, we propose a dual timestep strategy, increasing the consistency of guidance and optimizing 3D models from geometry to appearance in DreamLCM. Experiments show that DreamLCM achieves state-of-the-art results in both generation quality and training efficiency. The code is available at https://github.com/1YimingZhong/DreamLCM.
- Abstract(参考訳): 近年,SDS手法の出現により,テキスト・ツー・3Dタスクが急速に発達している。
しかし,SDS法は過度にスムースな問題のため,常に品質の悪い3Dオブジェクトを生成する。
この問題は2つの要因に起因している。
1) DDPM単段階推論は誘導勾配を低下させる。
2) 入力ノイズとタイムステップのランダム性は, 3次元コンテンツの詳細を平均化し, この問題に対処するために, LCM(Latent Consistency Model)を組み込んだDreamLCMを提案する。
DreamLCMはLCM固有の強力な画像生成機能を活用し、一貫した高品質なガイダンス、すなわち予測されたノイズや画像を生成することができる。
改良されたガイダンスにより,提案手法は,目標となる3次元モデルの最適化に正確かつ詳細な勾配を与えることができ,さらに,生成品質をさらに向上するための2つの戦略を提案する。
まず、Euler Solverを用いて誘導分布を校正し、3次元モデルの収束を加速する誘導校正戦略を提案する。
第2に,DreamLCMにおける2つのタイムステップ戦略を提案し,ガイダンスの整合性を高め,幾何学から外観まで3次元モデルを最適化する。
実験により、DreamLCMは、生成品質とトレーニング効率の両方で最先端の結果が得られることが示された。
コードはhttps://github.com/1YimingZhong/DreamLCM.comで公開されている。
関連論文リスト
- PlacidDreamer: Advancing Harmony in Text-to-3D Generation [20.022078051436846]
PlacidDreamerは、マルチビュー生成とテキスト条件生成を調和させるテキストから3Dフレームワークである。
バランスの取れた飽和を達成するために、新しいスコア蒸留アルゴリズムを採用している。
論文 参考訳(メタデータ) (2024-07-19T02:00:04Z) - VividDreamer: Towards High-Fidelity and Efficient Text-to-3D Generation [69.68568248073747]
拡散に基づく3次元生成タスクにおいて, ポーズ依存型連続蒸留サンプリング (PCDS) を提案する。
PCDSは拡散軌道内でポーズ依存整合関数を構築し、最小サンプリングステップで真の勾配を近似することができる。
そこで我々は,まず1ステップのPCDSを用いて3Dオブジェクトの基本構造を作成し,さらに徐々にPCDSのステップを拡大して細かな細部を生成する,粗大な最適化手法を提案する。
論文 参考訳(メタデータ) (2024-06-21T08:21:52Z) - Consistency^2: Consistent and Fast 3D Painting with Latent Consistency Models [29.818123424954294]
ジェネレーティブ3Dペイントは、高解像度の3Dアセット管理とリサイクルにおいて、最大の生産性向上要因である。
課題に対するLCM(Latent Consistency Model)適応を提案する。
提案モデルの強みと弱みを分析し,定量的かつ質的に評価する。
論文 参考訳(メタデータ) (2024-06-17T04:40:07Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - Magic-Boost: Boost 3D Generation with Mutli-View Conditioned Diffusion [88.02512124661884]
粗い生成結果を著しく洗練する多視点条件拡散モデルであるMagic-Boostを提案する。
以前のテキストや単一イメージベースの拡散モデルと比較して、Magic-Boostは高一貫性で画像を生成する堅牢な能力を示している。
入力画像の同一性によく整合した正確なSDSガイダンスを提供し、初期生成結果の幾何学的およびテクスチャの局所的な詳細を豊かにする。
論文 参考訳(メタデータ) (2024-04-09T16:20:03Z) - BoostDream: Efficient Refining for High-Quality Text-to-3D Generation from Multi-View Diffusion [0.0]
BoostDreamは、粗い3D資産を高品質に変換するために設計された、高効率なプラグアンドプレイ3D精製手法である。
本研究では, フィードフォワード生成により得られた3次元アセットと異なる表現に適合する3次元モデル蒸留を導入する。
新たな多視点SDS損失を設計し、多視点認識2次元拡散モデルを用いて3次元資産を洗練させる。
論文 参考訳(メタデータ) (2024-01-30T05:59:00Z) - DreamControl: Control-Based Text-to-3D Generation with 3D Self-Prior [97.694840981611]
本稿では,DreamControlという2段階の2Dリフトフレームワークを提案する。
制御ベースのスコア蒸留による微粒なオブジェクトを生成する。
DreamControlは、幾何学的一貫性とテクスチャ忠実度の両方の観点から、高品質な3Dコンテンツを生成することができる。
論文 参考訳(メタデータ) (2023-12-11T15:12:50Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。