論文の概要: PI3D: Efficient Text-to-3D Generation with Pseudo-Image Diffusion
- arxiv url: http://arxiv.org/abs/2312.09069v1
- Date: Thu, 14 Dec 2023 16:04:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-15 21:16:40.458727
- Title: PI3D: Efficient Text-to-3D Generation with Pseudo-Image Diffusion
- Title(参考訳): pi3d:疑似画像拡散を用いた効率的なテキスト対3d生成
- Authors: Ying-Tian Liu, Guan Luo, Heyi Sun, Wei Yin, Yuan-Chen Guo, Song-Hai
Zhang
- Abstract要約: PI3Dは、事前訓練されたテキスト-画像拡散モデルを用いて、高品質な3D形状を数分で生成する新しいフレームワークである。
事前学習した2次元拡散モデルを3次元拡散モデルに微調整し、3次元生成能力と2次元モデルから派生した一般化の両方を可能にする。
2次元拡散モデルのスコア蒸留サンプリングを利用して、サンプリングした3次元形状の品質を迅速に向上する。
- 参考スコア(独自算出の注目度): 19.951329726916654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce PI3D, a novel and efficient framework that
utilizes the pre-trained text-to-image diffusion models to generate
high-quality 3D shapes in minutes. On the one hand, it fine-tunes a pre-trained
2D diffusion model into a 3D diffusion model, enabling both 3D generative
capabilities and generalization derived from the 2D model. On the other, it
utilizes score distillation sampling of 2D diffusion models to quickly improve
the quality of the sampled 3D shapes. PI3D enables the migration of knowledge
from image to triplane generation by treating it as a set of pseudo-images. We
adapt the modules in the pre-training model to enable hybrid training using
pseudo and real images, which has proved to be a well-established strategy for
improving generalizability. The efficiency of PI3D is highlighted by its
ability to sample diverse 3D models in seconds and refine them in minutes. The
experimental results confirm the advantages of PI3D over existing methods based
on either 3D diffusion models or lifting 2D diffusion models in terms of fast
generation of 3D consistent and high-quality models. The proposed PI3D stands
as a promising advancement in the field of text-to-3D generation, and we hope
it will inspire more research into 3D generation leveraging the knowledge in
both 2D and 3D data.
- Abstract(参考訳): 本稿では,事前学習したテキスト-画像拡散モデルを用いて,高品質な3D形状を数分で生成する,新しい,効率的なフレームワークPI3Dを紹介する。
一方、事前学習した2次元拡散モデルを3次元拡散モデルに微調整し、3次元生成能力と2次元モデルからの一般化を可能にする。
また,2次元拡散モデルを用いたスコア蒸留法を用いて,試料3次元形状の品質を迅速に向上する。
PI3Dは、イメージからトリプレーン生成への知識の移動を可能にする。
我々は,擬似画像と実画像を用いたハイブリッドトレーニングを実現するために,事前学習モデルのモジュールを適応させる。
PI3Dの効率は、様々な3Dモデルを数秒でサンプリングし、数分で精錬する能力によって強調される。
実験により, 3次元拡散モデルと2次元拡散モデルのいずれかに基づく既存手法に比べて, PI3Dの利点が確認された。
提案したPI3Dは,テキスト・ツー・3D生成分野における有望な進歩であり,2Dデータと3Dデータの両方の知識を活用した3D生成のさらなる研究を期待する。
関連論文リスト
- Geometry Image Diffusion: Fast and Data-Efficient Text-to-3D with Image-Based Surface Representation [2.3213238782019316]
GIMDiffusionは、幾何学画像を利用して2次元画像を用いて3次元形状を効率よく表現する新しいテキスト・ツー・3Dモデルである。
安定拡散のような既存のテキスト・ツー・イメージモデルのリッチな2次元先行モデルを利用する。
簡単に言うと、GIMDiffusionは現行のText-to-Imageモデルに匹敵する速度で3Dアセットを生成することができる。
論文 参考訳(メタデータ) (2024-09-05T17:21:54Z) - 3DTopia: Large Text-to-3D Generation Model with Hybrid Diffusion Priors [85.11117452560882]
本稿では,2段階のテキスト・ツー・3D生成システムである3DTopiaについて述べる。
3次元データから直接学習される3次元拡散の第1段階のサンプルは、テキスト条件付き3次元潜伏拡散モデルを用いており、高速なプロトタイピングのための粗い3次元サンプルを迅速に生成する。
第2段階は2次元拡散前処理を利用して、粗い3次元モデルのテクスチャを第1段階からさらに洗練し、高品質なテクスチャ生成のための潜時空間と画素空間の最適化からなる。
論文 参考訳(メタデータ) (2024-03-04T17:26:28Z) - ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。
我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文 参考訳(メタデータ) (2024-03-04T07:57:05Z) - TPA3D: Triplane Attention for Fast Text-to-3D Generation [28.33270078863519]
テキスト誘導型3次元生成(TPA3D)のためのトライプレーンアテンションを提案する。
TPA3Dは、高速テキストから3D生成のための、エンドツーエンドのトレーニング可能なGANベースのディープラーニングモデルである。
TPA3Dは, きめ細かい記述と整合した高品質な3次元テクスチャ形状を生成する。
論文 参考訳(メタデータ) (2023-12-05T10:39:37Z) - GaussianDreamer: Fast Generation from Text to 3D Gaussians by Bridging 2D and 3D Diffusion Models [102.22388340738536]
2Dおよび3D拡散モデルは、プロンプトに基づいて適切な3Dオブジェクトを生成することができる。
3次元拡散モデルには優れた3次元整合性があるが、トレーニング可能な3次元データは高価で入手が難しいため、その品質と一般化は制限されている。
本稿では,2種類の拡散モデルから近年の明示的かつ効率的な3次元ガウススプラッティング表現を通じて電力を橋渡ししようとする。
論文 参考訳(メタデータ) (2023-10-12T17:22:24Z) - EfficientDreamer: High-Fidelity and Robust 3D Creation via Orthogonal-view Diffusion Prior [59.25950280610409]
直交ビュー画像誘導を利用した高画質な3Dコンテンツ生成パイプラインを提案する。
本稿では,与えられたテキストプロンプトに基づいて4つのサブイメージからなる画像を生成する2次元拡散モデルを提案する。
また,生成した3Dコンテンツの詳細をさらに改善する3D合成ネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-25T07:39:26Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - Dream3D: Zero-Shot Text-to-3D Synthesis Using 3D Shape Prior and
Text-to-Image Diffusion Models [44.34479731617561]
我々はCLIP誘導3次元最適化プロセスに明示的な3次元形状前処理を導入する。
テキストと画像のモダリティを直接、強力なテキストと画像の拡散モデルでブリッジする、シンプルで効果的なアプローチを提案する。
提案手法であるDream3Dは,視覚的品質と形状の精度に優れた想像的3Dコンテンツを生成することができる。
論文 参考訳(メタデータ) (2022-12-28T18:23:47Z) - 3D-TOGO: Towards Text-Guided Cross-Category 3D Object Generation [107.46972849241168]
3D-TOGOモデルは、良好なテクスチャを持つニューラルレージアンスフィールドの形で3Dオブジェクトを生成する。
最大3Dオブジェクトデータセット(ABO)の実験を行い、3D-TOGOが高品質な3Dオブジェクトをより良く生成できることを検証する。
論文 参考訳(メタデータ) (2022-12-02T11:31:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。