論文の概要: ScaleDreamer: Scalable Text-to-3D Synthesis with Asynchronous Score Distillation
- arxiv url: http://arxiv.org/abs/2407.02040v1
- Date: Tue, 2 Jul 2024 08:12:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 16:14:40.389458
- Title: ScaleDreamer: Scalable Text-to-3D Synthesis with Asynchronous Score Distillation
- Title(参考訳): ScaleDreamer: 非同期スコア蒸留によるスケーラブルテキストから3D合成
- Authors: Zhiyuan Ma, Yuxiang Wei, Yabin Zhang, Xiangyu Zhu, Zhen Lei, Lei Zhang,
- Abstract要約: テキスト・ツー・イメージの拡散先を利用することにより、スコア蒸留は、ペアのテキスト3Dトレーニングデータなしで3Dコンテンツを合成することができる。
現在のスコア蒸留法は、大量のテキストプロンプトまでスケールアップするのは難しい。
本稿では,拡散時間ステップを先行値にシフトすることで,ノイズ予測誤差を最小限に抑える非同期スコア蒸留法を提案する。
- 参考スコア(独自算出の注目度): 41.88337159350505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: By leveraging the text-to-image diffusion priors, score distillation can synthesize 3D contents without paired text-3D training data. Instead of spending hours of online optimization per text prompt, recent studies have been focused on learning a text-to-3D generative network for amortizing multiple text-3D relations, which can synthesize 3D contents in seconds. However, existing score distillation methods are hard to scale up to a large amount of text prompts due to the difficulties in aligning pretrained diffusion prior with the distribution of rendered images from various text prompts. Current state-of-the-arts such as Variational Score Distillation finetune the pretrained diffusion model to minimize the noise prediction error so as to align the distributions, which are however unstable to train and will impair the model's comprehension capability to numerous text prompts. Based on the observation that the diffusion models tend to have lower noise prediction errors at earlier timesteps, we propose Asynchronous Score Distillation (ASD), which minimizes the noise prediction error by shifting the diffusion timestep to earlier ones. ASD is stable to train and can scale up to 100k prompts. It reduces the noise prediction error without changing the weights of pre-trained diffusion model, thus keeping its strong comprehension capability to prompts. We conduct extensive experiments across different 2D diffusion models, including Stable Diffusion and MVDream, and text-to-3D generators, including Hyper-iNGP, 3DConv-Net and Triplane-Transformer. The results demonstrate ASD's effectiveness in stable 3D generator training, high-quality 3D content synthesis, and its superior prompt-consistency, especially under large prompt corpus.
- Abstract(参考訳): テキスト・ツー・イメージの拡散先を利用することにより、スコア蒸留は、ペアのテキスト3Dトレーニングデータなしで3Dコンテンツを合成することができる。
最近の研究では、テキストプロンプトごとのオンライン最適化に何時間も費やす代わりに、複数のテキスト3D関係を記憶するためのテキストから3D生成ネットワークの学習に焦点が当てられている。
しかし,様々なテキストプロンプトからの描画画像の分布に先行して,事前学習した拡散の調整が困難であることから,既存のスコア蒸留法は大量のテキストプロンプトにスケールアップすることが困難である。
変分スコア蒸留のような現在の最先端技術は、事前訓練された拡散モデルを微調整し、ノイズ予測誤差を最小限に抑え、トレーニングには不安定であり、多くのテキストプロンプトに対するモデルの理解能力を損なうような分布を整列させる。
拡散モデルが早期の時間ステップでノイズ予測誤差を小さくする傾向にあるという観測に基づいて,拡散時間ステップを早期の時間ステップにシフトすることでノイズ予測誤差を最小化する非同期スコア蒸留(ASD)を提案する。
ASDは訓練に安定しており、最大100kのプロンプトまでスケールできる。
事前学習した拡散モデルの重みを変更せずにノイズ予測誤差を低減し、その強い理解能力をプロンプトに維持する。
安定拡散やMVDream,Hyper-iNGP, 3DConv-Net, Triplane-Transformerなどのテキスト・ツー・3Dジェネレータなど,様々な2次元拡散モデルの広範な実験を行った。
その結果, 安定な3Dジェネレータの訓練, 高品質な3Dコンテンツ合成, 特に大規模プロンプトコーパスにおいて, 優れたプロンプト一貫性が得られた。
関連論文リスト
- FlowDreamer: Exploring High Fidelity Text-to-3D Generation via Rectified Flow [17.919092916953183]
本研究では,フロードレーマーという新しいフレームワークを提案し,よりリッチなテキストの詳細とより高速なコンバージェンスで高忠実度な結果を得る。
鍵となる洞察は、修正流れモデルの結合性と可逆性を利用して、対応する雑音を探索することである。
我々は,同じ軌道に沿って3次元モデルを最適化するために,新しい一様マッチング結合(UCM)損失を導入する。
論文 参考訳(メタデータ) (2024-08-09T11:40:20Z) - 3DTopia: Large Text-to-3D Generation Model with Hybrid Diffusion Priors [85.11117452560882]
本稿では,2段階のテキスト・ツー・3D生成システムである3DTopiaについて述べる。
3次元データから直接学習される3次元拡散の第1段階のサンプルは、テキスト条件付き3次元潜伏拡散モデルを用いており、高速なプロトタイピングのための粗い3次元サンプルを迅速に生成する。
第2段階は2次元拡散前処理を利用して、粗い3次元モデルのテクスチャを第1段階からさらに洗練し、高品質なテクスチャ生成のための潜時空間と画素空間の最適化からなる。
論文 参考訳(メタデータ) (2024-03-04T17:26:28Z) - Text-Image Conditioned Diffusion for Consistent Text-to-3D Generation [28.079441901818296]
我々は,粒度の細かい視野の整合性を明示したNeRF(Neural Radiance Fields)のテキスト・ツー・3D手法を提案する。
本手法は,既存のテキスト・ツー・3D法に対して最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-12-19T01:09:49Z) - SwiftBrush: One-Step Text-to-Image Diffusion Model with Variational Score Distillation [1.5892730797514436]
テキストと画像の拡散モデルは、しばしば遅い反復的なサンプリングプロセスに悩まされる。
我々は$textbfSwiftBrush$という新しいイメージフリー蒸留方式を提案する。
SwiftBrushは、COCO-30Kベンチマークで、$textbf16.67$のFIDスコアと$textbf0.29$のCLIPスコアを達成している。
論文 参考訳(メタデータ) (2023-12-08T18:44:09Z) - Instant3D: Fast Text-to-3D with Sparse-View Generation and Large
Reconstruction Model [68.98311213582949]
テキストプロンプトから高品質で多様な3Dアセットをフィードフォワードで生成する新しい手法であるInstant3Dを提案する。
提案手法は,従来の最適化手法よりも2桁早く,20秒以内に高画質の多種多様な3Dアセットを生成できる。
論文 参考訳(メタデータ) (2023-11-10T18:03:44Z) - ProlificDreamer: High-Fidelity and Diverse Text-to-3D Generation with
Variational Score Distillation [48.59711140119368]
テキスト・ツー・3D 生成における問題の説明と対処を目的として, 変分スコア蒸留法 (VSD) を提案する。
ProlificDreamerと呼ばれる我々の全体的なアプローチは、高解像度(512times512$)と、リッチな構造と複雑な効果を持つ高忠実なNeRFを生成することができる。
論文 参考訳(メタデータ) (2023-05-25T16:19:18Z) - 3D-CLFusion: Fast Text-to-3D Rendering with Contrastive Latent Diffusion [55.71215821923401]
我々は、事前訓練された潜伏型NeRF(入力潜伏符号を与えられた3次元オブジェクトを生成するNeRF)によるテキストから3次元生成の課題に取り組む。
本稿では,3D-CLFusion という3D-CLFusion という手法を提案する。
論文 参考訳(メタデータ) (2023-03-21T15:38:26Z) - DreamFusion: Text-to-3D using 2D Diffusion [52.52529213936283]
テキストと画像の合成の最近の進歩は、何十億もの画像と画像のペアで訓練された拡散モデルによって引き起こされている。
本研究では,事前訓練された2次元テキスト・ツー・イメージ拡散モデルを用いてテキスト・ツー・3次元合成を行うことにより,これらの制約を回避する。
提案手法では,3次元トレーニングデータや画像拡散モデルの変更は必要とせず,事前訓練した画像拡散モデルの有効性を実証する。
論文 参考訳(メタデータ) (2022-09-29T17:50:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。