論文の概要: DreamFlow: High-Quality Text-to-3D Generation by Approximating Probability Flow
- arxiv url: http://arxiv.org/abs/2403.14966v1
- Date: Fri, 22 Mar 2024 05:38:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 18:37:30.384702
- Title: DreamFlow: High-Quality Text-to-3D Generation by Approximating Probability Flow
- Title(参考訳): DreamFlow:確率フローの近似による高品質テキストから3D生成
- Authors: Kyungmin Lee, Kihyuk Sohn, Jinwoo Shin,
- Abstract要約: 本稿では,T2I拡散を利用したテキスト・ツー・3Dの最適化手法を提案する。
提案手法を応用して,実用的な3段階間粗大なテキスト・ツー・3D最適化フレームワークであるDreamFlowを設計する。
- 参考スコア(独自算出の注目度): 72.9209434105892
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in text-to-3D generation has been achieved through the utilization of score distillation methods: they make use of the pre-trained text-to-image (T2I) diffusion models by distilling via the diffusion model training objective. However, such an approach inevitably results in the use of random timesteps at each update, which increases the variance of the gradient and ultimately prolongs the optimization process. In this paper, we propose to enhance the text-to-3D optimization by leveraging the T2I diffusion prior in the generative sampling process with a predetermined timestep schedule. To this end, we interpret text-to3D optimization as a multi-view image-to-image translation problem, and propose a solution by approximating the probability flow. By leveraging the proposed novel optimization algorithm, we design DreamFlow, a practical three-stage coarseto-fine text-to-3D optimization framework that enables fast generation of highquality and high-resolution (i.e., 1024x1024) 3D contents. For example, we demonstrate that DreamFlow is 5 times faster than the existing state-of-the-art text-to-3D method, while producing more photorealistic 3D contents. Visit our project page (https://kyungmnlee.github.io/dreamflow.github.io/) for visualizations.
- Abstract(参考訳): テキスト・ツー・3D生成の最近の進歩は, 予め訓練したテキスト・ツー・イメージ(T2I)拡散モデルを用いて, 拡散モデルトレーニングの目的を通した蒸留により, スコア・蒸留法を用いて達成されている。
しかし、このようなアプローチは必然的に各更新におけるランダムなタイムステップの使用をもたらすため、勾配のばらつきが増大し、最終的には最適化プロセスが長くなる。
本稿では,T2I拡散を利用したテキスト・ツー・3Dの最適化手法を提案する。
そこで我々は,テキストから3Dへの最適化を多視点画像への変換問題として解釈し,確率フローを近似した解を提案する。
提案手法を応用して,高品質で高解像度な1024×1024の3Dコンテンツを高速に生成できる,実用的な3段階間粗大なテキスト・ツー・3D最適化フレームワークであるDreamFlowを設計する。
例えば、DreamFlowは既存の最先端のテキスト・トゥ・3D法よりも5倍高速であり、よりフォトリアリスティックな3Dコンテンツを生成する。
プロジェクトのページ(https://kyungmnlee.github.io/dreamflow.github.io/)を参照してください。
関連論文リスト
- OrientDream: Streamlining Text-to-3D Generation with Explicit Orientation Control [66.03885917320189]
OrientDreamは、テキストプロンプトから効率よくマルチビューで一貫した3D生成のためのカメラ指向条件付きフレームワークである。
本戦略は,2次元テキスト・画像拡散モジュールの事前学習におけるカメラ配向条件付き機能の実装を強調する。
提案手法は,一貫したマルチビュー特性を持つ高品質なNeRFモデルを生成するだけでなく,既存手法よりも最適化速度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-06-14T13:16:18Z) - 3DTopia: Large Text-to-3D Generation Model with Hybrid Diffusion Priors [85.11117452560882]
本稿では,2段階のテキスト・ツー・3D生成システムである3DTopiaについて述べる。
3次元データから直接学習される3次元拡散の第1段階のサンプルは、テキスト条件付き3次元潜伏拡散モデルを用いており、高速なプロトタイピングのための粗い3次元サンプルを迅速に生成する。
第2段階は2次元拡散前処理を利用して、粗い3次元モデルのテクスチャを第1段階からさらに洗練し、高品質なテクスチャ生成のための潜時空間と画素空間の最適化からなる。
論文 参考訳(メタデータ) (2024-03-04T17:26:28Z) - Instant3D: Fast Text-to-3D with Sparse-View Generation and Large
Reconstruction Model [68.98311213582949]
テキストプロンプトから高品質で多様な3Dアセットをフィードフォワードで生成する新しい手法であるInstant3Dを提案する。
提案手法は,従来の最適化手法よりも2桁早く,20秒以内に高画質の多種多様な3Dアセットを生成できる。
論文 参考訳(メタデータ) (2023-11-10T18:03:44Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - DreamTime: An Improved Optimization Strategy for Diffusion-Guided 3D Generation [24.042803966469066]
本研究は, 点数蒸留における3次元最適化プロセスと一様時間ステップサンプリングの矛盾が, これらの制約の主な原因であることを示す。
本稿では, 単調な非増加関数を用いた時間ステップサンプリングを優先し, 3次元最適化プロセスと拡散モデルのサンプリングプロセスとの整合性を示す。
私たちのシンプルなデザイン変更は、より高速なコンバージェンス、より良い品質、多様性で3Dコンテンツ作成を大幅に改善します。
論文 参考訳(メタデータ) (2023-06-21T17:59:45Z) - Efficient Text-Guided 3D-Aware Portrait Generation with Score
Distillation Sampling on Distribution [28.526714129927093]
本研究では,DreamPortraitを提案する。DreamPortraitは,テキスト誘導型3D画像の単一フォワードパスで効率よく作成することを目的としている。
さらに,テキストと3D認識空間の対応をモデルが明示的に知覚できるように,3D対応のゲート・アテンション機構を設計する。
論文 参考訳(メタデータ) (2023-06-03T11:08:38Z) - DreamFusion: Text-to-3D using 2D Diffusion [52.52529213936283]
テキストと画像の合成の最近の進歩は、何十億もの画像と画像のペアで訓練された拡散モデルによって引き起こされている。
本研究では,事前訓練された2次元テキスト・ツー・イメージ拡散モデルを用いてテキスト・ツー・3次元合成を行うことにより,これらの制約を回避する。
提案手法では,3次元トレーニングデータや画像拡散モデルの変更は必要とせず,事前訓練した画像拡散モデルの有効性を実証する。
論文 参考訳(メタデータ) (2022-09-29T17:50:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。