論文の概要: ProlificDreamer: High-Fidelity and Diverse Text-to-3D Generation with
Variational Score Distillation
- arxiv url: http://arxiv.org/abs/2305.16213v1
- Date: Thu, 25 May 2023 16:19:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 14:01:14.301288
- Title: ProlificDreamer: High-Fidelity and Diverse Text-to-3D Generation with
Variational Score Distillation
- Title(参考訳): prolificdreamer: 変動スコア蒸留による高忠実度・多彩なテキスト対3d生成
- Authors: Zhengyi Wang, Cheng Lu, Yikai Wang, Fan Bao, Chongxuan Li, Hang Su,
Jun Zhu
- Abstract要約: テキスト・ツー・3D 生成における問題の説明と対処を目的として, 変分スコア蒸留法 (VSD) を提案する。
ProlificDreamerと呼ばれる我々の全体的なアプローチは、高解像度(512times512$)と、リッチな構造と複雑な効果を持つ高忠実なNeRFを生成することができる。
- 参考スコア(独自算出の注目度): 46.29242762728614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Score distillation sampling (SDS) has shown great promise in text-to-3D
generation by distilling pretrained large-scale text-to-image diffusion models,
but suffers from over-saturation, over-smoothing, and low-diversity problems.
In this work, we propose to model the 3D parameter as a random variable instead
of a constant as in SDS and present variational score distillation (VSD), a
principled particle-based variational framework to explain and address the
aforementioned issues in text-to-3D generation. We show that SDS is a special
case of VSD and leads to poor samples with both small and large CFG weights. In
comparison, VSD works well with various CFG weights as ancestral sampling from
diffusion models and simultaneously improves the diversity and sample quality
with a common CFG weight (i.e., $7.5$). We further present various improvements
in the design space for text-to-3D such as distillation time schedule and
density initialization, which are orthogonal to the distillation algorithm yet
not well explored. Our overall approach, dubbed ProlificDreamer, can generate
high rendering resolution (i.e., $512\times512$) and high-fidelity NeRF with
rich structure and complex effects (e.g., smoke and drops). Further,
initialized from NeRF, meshes fine-tuned by VSD are meticulously detailed and
photo-realistic. Project page: https://ml.cs.tsinghua.edu.cn/prolificdreamer/
- Abstract(参考訳): SDS (Score distillation sample) は, 事前訓練した大規模テキスト・画像拡散モデルを蒸留することにより, テキスト・ツー・3D生成において大きな可能性を秘めている。
本研究では,sdsのように定数ではなく確率変数として3dパラメータをモデル化し,前述のテキストから3d生成の問題を説明・解決するための原理粒子ベースの変分点蒸留(vsd)を提案する。
SDSはVSDの特殊な症例であり,小および大のCFG重量のサンプルが不足していることを示す。
対照的に、VSDは拡散モデルからの祖先サンプリングとして様々なCFG重量とうまく働き、共通のCFG重量(すなわち7.5$)で多様性とサンプル品質を同時に改善する。
さらに, 蒸留時間スケジュールや密度初期化などのテキストから3Dまでの設計空間を改良し, 蒸留アルゴリズムの直交性について検討した。
ProlificDreamerと呼ばれる我々の全体的なアプローチは、高いレンダリング解像度(512\times 512$)と豊富な構造と複雑な効果(煙や滴など)を持つ高忠実度NeRFを生成することができる。
さらに、NeRFから初期化され、VSDによって微細に調整されたメッシュは細部まで詳細で、フォトリアリスティックである。
プロジェクトページ: https://ml.cs.tsinghua.edu.cn/prolificdreamer/
関連論文リスト
- DreamMapping: High-Fidelity Text-to-3D Generation via Variational Distribution Mapping [20.7584503748821]
SDS (Score Distillation Sampling) はテキストから3D生成の一般的な技術として登場し、テキストから2Dのガイダンスからビュー依存情報を蒸留することで3Dコンテンツ作成を可能にする。
我々は、SDSの徹底的な解析を行い、その定式化を洗練し、中心となる設計はレンダリングされた画像の分布をモデル化することである。
本稿では,分散に基づく生成の劣化事例として,画像の描画を考慮し,分散モデリングプロセスの迅速化を図る,変分分布マッピング (VDM) という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-08T14:04:48Z) - ScaleDreamer: Scalable Text-to-3D Synthesis with Asynchronous Score Distillation [41.88337159350505]
テキスト・ツー・イメージの拡散先を利用することにより、スコア蒸留は、ペアのテキスト3Dトレーニングデータなしで3Dコンテンツを合成することができる。
現在のスコア蒸留法は、大量のテキストプロンプトまでスケールアップするのは難しい。
本稿では,拡散時間ステップを先行値にシフトすることで,ノイズ予測誤差を最小限に抑える非同期スコア蒸留法を提案する。
論文 参考訳(メタデータ) (2024-07-02T08:12:14Z) - VividDreamer: Towards High-Fidelity and Efficient Text-to-3D Generation [69.68568248073747]
拡散に基づく3次元生成タスクにおいて, ポーズ依存型連続蒸留サンプリング (PCDS) を提案する。
PCDSは拡散軌道内でポーズ依存整合関数を構築し、最小サンプリングステップで真の勾配を近似することができる。
そこで我々は,まず1ステップのPCDSを用いて3Dオブジェクトの基本構造を作成し,さらに徐々にPCDSのステップを拡大して細かな細部を生成する,粗大な最適化手法を提案する。
論文 参考訳(メタデータ) (2024-06-21T08:21:52Z) - Diffusion Time-step Curriculum for One Image to 3D Generation [91.07638345953016]
テキストバッフル画像から3Dオブジェクトを再構成する際の見知らぬ視点の欠如を克服するために,スコア蒸留サンプリング(SDS)が広く採用されている。
最適化中の拡散時間ステップの無差別な処理方法として,クルックスが見過ごされていることが判明した。
本稿では,教師モデルと学生モデルの両方が,時間段階のカリキュラムと密接な連携を図ったDiffusion Time-step Curriculum One-image-to-3D Pipeline (DTC123)を提案する。
論文 参考訳(メタデータ) (2024-04-06T09:03:18Z) - 3DTopia: Large Text-to-3D Generation Model with Hybrid Diffusion Priors [85.11117452560882]
本稿では,2段階のテキスト・ツー・3D生成システムである3DTopiaについて述べる。
3次元データから直接学習される3次元拡散の第1段階のサンプルは、テキスト条件付き3次元潜伏拡散モデルを用いており、高速なプロトタイピングのための粗い3次元サンプルを迅速に生成する。
第2段階は2次元拡散前処理を利用して、粗い3次元モデルのテクスチャを第1段階からさらに洗練し、高品質なテクスチャ生成のための潜時空間と画素空間の最適化からなる。
論文 参考訳(メタデータ) (2024-03-04T17:26:28Z) - Consistent3D: Towards Consistent High-Fidelity Text-to-3D Generation with Deterministic Sampling Prior [87.55592645191122]
スコア蒸留サンプリング(SDS)とその変種は、テキスト・ツー・3D世代の発展を大幅に加速させたが、幾何崩壊やテクスチャの低下に弱い。
テキストから3D生成に先立ってODE決定論的サンプリングを探索する新しい「一貫性3D」手法を提案する。
実験により,高忠実で多様な3Dオブジェクトと大規模シーンの生成にConsistent3Dの有効性が示された。
論文 参考訳(メタデータ) (2024-01-17T08:32:07Z) - CAD: Photorealistic 3D Generation via Adversarial Distillation [28.07049413820128]
本稿では,事前学習した拡散モデルを用いた3次元合成のための新しい学習パラダイムを提案する。
提案手法は,1つの画像に条件付された高忠実かつ光リアルな3Dコンテンツの生成を解放し,プロンプトを行う。
論文 参考訳(メタデータ) (2023-12-11T18:59:58Z) - Sparse3D: Distilling Multiview-Consistent Diffusion for Object
Reconstruction from Sparse Views [47.215089338101066]
スパースビュー入力に適した新しい3D再構成手法であるスパース3Dを提案する。
提案手法は,多視点拡散モデルから頑健な先行情報を抽出し,ニューラルラディアンス場を改良する。
強力な画像拡散モデルから2Dプリエントをタップすることで、我々の統合モデルは、常に高品質な結果をもたらす。
論文 参考訳(メタデータ) (2023-08-27T11:52:00Z) - DreamFusion: Text-to-3D using 2D Diffusion [52.52529213936283]
テキストと画像の合成の最近の進歩は、何十億もの画像と画像のペアで訓練された拡散モデルによって引き起こされている。
本研究では,事前訓練された2次元テキスト・ツー・イメージ拡散モデルを用いてテキスト・ツー・3次元合成を行うことにより,これらの制約を回避する。
提案手法では,3次元トレーニングデータや画像拡散モデルの変更は必要とせず,事前訓練した画像拡散モデルの有効性を実証する。
論文 参考訳(メタデータ) (2022-09-29T17:50:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。