論文の概要: Progressive Rendering Distillation: Adapting Stable Diffusion for Instant Text-to-Mesh Generation without 3D Data
- arxiv url: http://arxiv.org/abs/2503.21694v1
- Date: Thu, 27 Mar 2025 16:59:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:53:47.951270
- Title: Progressive Rendering Distillation: Adapting Stable Diffusion for Instant Text-to-Mesh Generation without 3D Data
- Title(参考訳): プログレッシブレンダリング蒸留:3次元データ無しのインスタントテキスト・メシュ生成における安定拡散の適応
- Authors: Zhiyuan Ma, Xinyue Liang, Rongyuan Wu, Xiangyu Zhu, Zhen Lei, Lei Zhang,
- Abstract要約: テキストプロンプトから高品質な3Dメッシュを数秒で生成することが望ましい。
最近の試みでは、安定拡散(SD)のような事前訓練されたテキスト-画像拡散モデルが3次元表現のジェネレータ(トリプレーンなど)に応用されている。
本稿では,プログレッシブレンダリング蒸留(PRD)と呼ばれる新しいトレーニング手法を提案する。
- 参考スコア(独自算出の注目度): 36.61985217078359
- License:
- Abstract: It is highly desirable to obtain a model that can generate high-quality 3D meshes from text prompts in just seconds. While recent attempts have adapted pre-trained text-to-image diffusion models, such as Stable Diffusion (SD), into generators of 3D representations (e.g., Triplane), they often suffer from poor quality due to the lack of sufficient high-quality 3D training data. Aiming at overcoming the data shortage, we propose a novel training scheme, termed as Progressive Rendering Distillation (PRD), eliminating the need for 3D ground-truths by distilling multi-view diffusion models and adapting SD into a native 3D generator. In each iteration of training, PRD uses the U-Net to progressively denoise the latent from random noise for a few steps, and in each step it decodes the denoised latent into 3D output. Multi-view diffusion models, including MVDream and RichDreamer, are used in joint with SD to distill text-consistent textures and geometries into the 3D outputs through score distillation. Since PRD supports training without 3D ground-truths, we can easily scale up the training data and improve generation quality for challenging text prompts with creative concepts. Meanwhile, PRD can accelerate the inference speed of the generation model in just a few steps. With PRD, we train a Triplane generator, namely TriplaneTurbo, which adds only $2.5\%$ trainable parameters to adapt SD for Triplane generation. TriplaneTurbo outperforms previous text-to-3D generators in both efficiency and quality. Specifically, it can produce high-quality 3D meshes in 1.2 seconds and generalize well for challenging text input. The code is available at https://github.com/theEricMa/TriplaneTurbo.
- Abstract(参考訳): テキストプロンプトから高品質な3Dメッシュをわずか数秒で生成できるモデルを得るのが望ましい。
最近の試みでは、安定拡散(SD)のような事前訓練されたテキストと画像の拡散モデルが3D表現のジェネレータ(例:Triplane)に応用されているが、十分な高品質な3Dトレーニングデータがないため、しばしば品質の低下に悩まされている。
データ不足の克服を目的とした,プログレッシブレンダリング蒸留(PRD)と呼ばれる新しいトレーニングスキームを提案し,多視点拡散モデルを蒸留し,SDをネイティブな3Dジェネレータに適応させることにより,3D地下構造の必要性を解消する。
トレーニングの各イテレーションでは、PRDはU-Netを使用して、ランダムノイズから数ステップで遅延を段階的に分解し、各ステップで遅延を3D出力にデコードする。
MVDream や RichDreamer などの多視点拡散モデルは、SD と共同でテキスト一貫性のあるテクスチャやジオメトリーを3D出力に蒸留するために用いられる。
PRDは3次元の地下構造を持たないトレーニングをサポートするため、トレーニングデータのスケールアップを容易にし、創造的な概念で挑戦するテキストプロンプトの生成品質を向上させることができる。
一方、RDは数ステップで生成モデルの推論速度を加速することができる。
PRDでは、Triplaneジェネレータ、すなわちTriplaneTurboをトレーニングします。
TriplaneTurboは、従来のテキスト・ツー・3Dジェネレータを効率と品質の両方で上回っている。
具体的には、1.2秒で高品質な3Dメッシュを生成し、挑戦的なテキスト入力をうまく一般化することができる。
コードはhttps://github.com/theEricMa/TriplaneTurbo.comで公開されている。
関連論文リスト
- GANFusion: Feed-Forward Text-to-3D with Diffusion in GAN Space [64.82017974849697]
我々は、単一視点2Dデータのみを用いて、人間の文字に対するフィードフォワードテキストから3D拡散生成器を訓練する。
GANFusionは、単一のビュー2DデータのみをトレーニングしたGANアーキテクチャを使用して、3Dデータの無条件トリプレーン機能を生成することから始まる。
論文 参考訳(メタデータ) (2024-12-21T17:59:17Z) - MeshFormer: High-Quality Mesh Generation with 3D-Guided Reconstruction Model [34.245635412589806]
MeshFormerはスパースビューリコンストラクションモデルで、3Dネイティブ構造、入力ガイダンス、トレーニングインスペクションを明示的に活用する。
2次元拡散モデルと統合することで、高速な単一像から3次元およびテキストから3次元のタスクを可能にする。
論文 参考訳(メタデータ) (2024-08-19T17:55:17Z) - VividDreamer: Towards High-Fidelity and Efficient Text-to-3D Generation [69.68568248073747]
拡散に基づく3次元生成タスクにおいて, ポーズ依存型連続蒸留サンプリング (PCDS) を提案する。
PCDSは拡散軌道内でポーズ依存整合関数を構築し、最小サンプリングステップで真の勾配を近似することができる。
そこで我々は,まず1ステップのPCDSを用いて3Dオブジェクトの基本構造を作成し,さらに徐々にPCDSのステップを拡大して細かな細部を生成する,粗大な最適化手法を提案する。
論文 参考訳(メタデータ) (2024-06-21T08:21:52Z) - Dual3D: Efficient and Consistent Text-to-3D Generation with Dual-mode Multi-view Latent Diffusion [62.37374499337897]
本稿では,新しいテキスト・ツー・3D生成フレームワークであるDual3Dを紹介する。
テキストから高品質な3Dアセットをわずか1分で生成する。
論文 参考訳(メタデータ) (2024-05-16T07:50:02Z) - 3DTopia: Large Text-to-3D Generation Model with Hybrid Diffusion Priors [85.11117452560882]
本稿では,2段階のテキスト・ツー・3D生成システムである3DTopiaについて述べる。
3次元データから直接学習される3次元拡散の第1段階のサンプルは、テキスト条件付き3次元潜伏拡散モデルを用いており、高速なプロトタイピングのための粗い3次元サンプルを迅速に生成する。
第2段階は2次元拡散前処理を利用して、粗い3次元モデルのテクスチャを第1段階からさらに洗練し、高品質なテクスチャ生成のための潜時空間と画素空間の最適化からなる。
論文 参考訳(メタデータ) (2024-03-04T17:26:28Z) - IM-3D: Iterative Multiview Diffusion and Reconstruction for High-Quality
3D Generation [96.32684334038278]
本稿では,テキスト・ツー・3Dモデルの設計空間について検討する。
画像生成装置の代わりに映像を考慮し、マルチビュー生成を大幅に改善する。
IM-3Dは,2次元ジェネレータネットワーク10-100xの評価回数を削減する。
論文 参考訳(メタデータ) (2024-02-13T18:59:51Z) - PI3D: Efficient Text-to-3D Generation with Pseudo-Image Diffusion [18.82883336156591]
本稿では,テキストプロンプトから高品質な3D形状を数分で生成する,事前学習されたテキスト・画像拡散モデルの能力をフル活用するフレームワークPI3Dを提案する。
PI3Dはテキストからわずか3分で1つの3D形状を生成し、その品質は既存の3D生成モデルよりも大きなマージンで優れていることが検証される。
論文 参考訳(メタデータ) (2023-12-14T16:04:34Z) - GaussianDreamer: Fast Generation from Text to 3D Gaussians by Bridging 2D and 3D Diffusion Models [102.22388340738536]
2Dおよび3D拡散モデルは、プロンプトに基づいて適切な3Dオブジェクトを生成することができる。
3次元拡散モデルには優れた3次元整合性があるが、トレーニング可能な3次元データは高価で入手が難しいため、その品質と一般化は制限されている。
本稿では,2種類の拡散モデルから近年の明示的かつ効率的な3次元ガウススプラッティング表現を通じて電力を橋渡ししようとする。
論文 参考訳(メタデータ) (2023-10-12T17:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。