論文の概要: PI3D: Efficient Text-to-3D Generation with Pseudo-Image Diffusion
- arxiv url: http://arxiv.org/abs/2312.09069v1
- Date: Thu, 14 Dec 2023 16:04:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-15 21:16:40.458727
- Title: PI3D: Efficient Text-to-3D Generation with Pseudo-Image Diffusion
- Title(参考訳): pi3d:疑似画像拡散を用いた効率的なテキスト対3d生成
- Authors: Ying-Tian Liu, Guan Luo, Heyi Sun, Wei Yin, Yuan-Chen Guo, Song-Hai
Zhang
- Abstract要約: PI3Dは、事前訓練されたテキスト-画像拡散モデルを用いて、高品質な3D形状を数分で生成する新しいフレームワークである。
事前学習した2次元拡散モデルを3次元拡散モデルに微調整し、3次元生成能力と2次元モデルから派生した一般化の両方を可能にする。
2次元拡散モデルのスコア蒸留サンプリングを利用して、サンプリングした3次元形状の品質を迅速に向上する。
- 参考スコア(独自算出の注目度): 19.951329726916654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce PI3D, a novel and efficient framework that
utilizes the pre-trained text-to-image diffusion models to generate
high-quality 3D shapes in minutes. On the one hand, it fine-tunes a pre-trained
2D diffusion model into a 3D diffusion model, enabling both 3D generative
capabilities and generalization derived from the 2D model. On the other, it
utilizes score distillation sampling of 2D diffusion models to quickly improve
the quality of the sampled 3D shapes. PI3D enables the migration of knowledge
from image to triplane generation by treating it as a set of pseudo-images. We
adapt the modules in the pre-training model to enable hybrid training using
pseudo and real images, which has proved to be a well-established strategy for
improving generalizability. The efficiency of PI3D is highlighted by its
ability to sample diverse 3D models in seconds and refine them in minutes. The
experimental results confirm the advantages of PI3D over existing methods based
on either 3D diffusion models or lifting 2D diffusion models in terms of fast
generation of 3D consistent and high-quality models. The proposed PI3D stands
as a promising advancement in the field of text-to-3D generation, and we hope
it will inspire more research into 3D generation leveraging the knowledge in
both 2D and 3D data.
- Abstract(参考訳): 本稿では,事前学習したテキスト-画像拡散モデルを用いて,高品質な3D形状を数分で生成する,新しい,効率的なフレームワークPI3Dを紹介する。
一方、事前学習した2次元拡散モデルを3次元拡散モデルに微調整し、3次元生成能力と2次元モデルからの一般化を可能にする。
また,2次元拡散モデルを用いたスコア蒸留法を用いて,試料3次元形状の品質を迅速に向上する。
PI3Dは、イメージからトリプレーン生成への知識の移動を可能にする。
我々は,擬似画像と実画像を用いたハイブリッドトレーニングを実現するために,事前学習モデルのモジュールを適応させる。
PI3Dの効率は、様々な3Dモデルを数秒でサンプリングし、数分で精錬する能力によって強調される。
実験により, 3次元拡散モデルと2次元拡散モデルのいずれかに基づく既存手法に比べて, PI3Dの利点が確認された。
提案したPI3Dは,テキスト・ツー・3D生成分野における有望な進歩であり,2Dデータと3Dデータの両方の知識を活用した3D生成のさらなる研究を期待する。
関連論文リスト
- Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - 3DTopia: Large Text-to-3D Generation Model with Hybrid Diffusion Priors [86.31822685078642]
本稿では,2段階のテキスト・ツー・3D生成システムである3DTopiaについて述べる。
3次元データから直接学習される3次元拡散の第1段階のサンプルは、テキスト条件付き3次元潜伏拡散モデルを用いており、高速なプロトタイピングのための粗い3次元サンプルを迅速に生成する。
第2段階は2次元拡散前処理を利用して、粗い3次元モデルのテクスチャを第1段階からさらに洗練し、高品質なテクスチャ生成のための潜時空間と画素空間の最適化からなる。
論文 参考訳(メタデータ) (2024-03-04T17:26:28Z) - Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D
Prior [52.44678180286886]
2次元拡散モデルでは、3次元データなしで優れた一般化と豊富な詳細を実現する蒸留手法が見つかる。
提案するSherpa3Dは,高忠実度,一般化性,幾何整合性を同時に実現する新しいテキスト・ツー・3Dフレームワークである。
論文 参考訳(メタデータ) (2023-12-11T18:59:18Z) - TPA3D: Triplane Attention for Fast Text-to-3D Generation [30.951440204237166]
テキスト誘導型3次元生成(TPA3D)のためのトライプレーンアテンションを提案する。
TPA3Dは、高速テキストから3D生成のための、エンドツーエンドのトレーニング可能なGANベースのディープラーニングモデルである。
TPA3Dは, きめ細かい記述と整合した高品質な3次元テクスチャ形状を生成する。
論文 参考訳(メタデータ) (2023-12-05T10:39:37Z) - GaussianDreamer: Fast Generation from Text to 3D Gaussians by Bridging
2D and 3D Diffusion Models [106.06810278075223]
2Dおよび3D拡散モデルは、プロンプトに基づいて適切な3Dオブジェクトを生成することができる。
3次元拡散モデルには優れた3次元整合性があるが、トレーニング可能な3次元データは高価で入手が難しいため、その品質と一般化は制限されている。
本稿では,2種類の拡散モデルから近年の明示的かつ効率的な3次元ガウススプラッティング表現を通じて電力を橋渡ししようとする。
論文 参考訳(メタデータ) (2023-10-12T17:22:24Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - Let 2D Diffusion Model Know 3D-Consistency for Robust Text-to-3D
Generation [39.50894560861625]
3DFuseは、事前訓練された2D拡散モデルに3D認識を組み込む新しいフレームワークである。
本研究では,2次元拡散モデルを用いて,粗い3次元構造内の誤差や空間の分散を学習し,ロバストな生成を可能にするトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T14:24:31Z) - 3D Neural Field Generation using Triplane Diffusion [37.46688195622667]
ニューラルネットワークの3次元認識のための効率的な拡散ベースモデルを提案する。
当社のアプローチでは,ShapeNetメッシュなどのトレーニングデータを,連続的占有フィールドに変換することによって前処理する。
本論文では,ShapeNetのオブジェクトクラスにおける3D生成の現状について述べる。
論文 参考訳(メタデータ) (2022-11-30T01:55:52Z) - DreamFusion: Text-to-3D using 2D Diffusion [52.52529213936283]
テキストと画像の合成の最近の進歩は、何十億もの画像と画像のペアで訓練された拡散モデルによって引き起こされている。
本研究では,事前訓練された2次元テキスト・ツー・イメージ拡散モデルを用いてテキスト・ツー・3次元合成を行うことにより,これらの制約を回避する。
提案手法では,3次元トレーニングデータや画像拡散モデルの変更は必要とせず,事前訓練した画像拡散モデルの有効性を実証する。
論文 参考訳(メタデータ) (2022-09-29T17:50:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。