論文の概要: Direct2.5: Diverse Text-to-3D Generation via Multi-view 2.5D Diffusion
- arxiv url: http://arxiv.org/abs/2311.15980v1
- Date: Mon, 27 Nov 2023 16:26:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 14:15:02.747968
- Title: Direct2.5: Diverse Text-to-3D Generation via Multi-view 2.5D Diffusion
- Title(参考訳): Direct2.5:マルチビュー2.5D拡散によるテキスト・ツー・3D生成
- Authors: Yuanxun Lu, Jingyang Zhang, Shiwei Li, Tian Fang, David McKinnon,
Yanghai Tsin, Long Quan, Xun Cao, and Yao Yao
- Abstract要約: 3Dコンテンツを作成するための現在の方法は、時間がかかり、生成の多様性を失う。
本研究では,事前学習した2次元拡散モデルから2.5D拡散を微調整した多視点モデルを用いる。
特別に設計された融合方式による2.5D直接生成は,10秒で多種多様で,モードフリーで,高忠実な3Dコンテンツ生成を実現することができることを示す。
- 参考スコア(独自算出の注目度): 32.13452288549591
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in generative AI have unveiled significant potential for the
creation of 3D content. However, current methods either apply a pre-trained 2D
diffusion model with the time-consuming score distillation sampling (SDS), or a
direct 3D diffusion model trained on limited 3D data losing generation
diversity. In this work, we approach the problem by employing a multi-view 2.5D
diffusion fine-tuned from a pre-trained 2D diffusion model. The multi-view 2.5D
diffusion directly models the structural distribution of 3D data, while still
maintaining the strong generalization ability of the original 2D diffusion
model, filling the gap between 2D diffusion-based and direct 3D diffusion-based
methods for 3D content generation. During inference, multi-view normal maps are
generated using the 2.5D diffusion, and a novel differentiable rasterization
scheme is introduced to fuse the almost consistent multi-view normal maps into
a consistent 3D model. We further design a normal-conditioned multi-view image
generation module for fast appearance generation given the 3D geometry. Our
method is a one-pass diffusion process and does not require any SDS
optimization as post-processing. We demonstrate through extensive experiments
that, our direct 2.5D generation with the specially-designed fusion scheme can
achieve diverse, mode-seeking-free, and high-fidelity 3D content generation in
only 10 seconds. Project page: https://nju-3dv.github.io/projects/direct25.
- Abstract(参考訳): 生成AIの最近の進歩は、3Dコンテンツを作成する大きな可能性を明らかにしている。
しかし、現在の方法では、時間消費スコア蒸留サンプリング(SDS)による事前学習された2次元拡散モデルや、生成多様性を損なう限られた3次元データに基づいて訓練された直接3次元拡散モデルを適用する。
本研究では, 事前学習した2次元拡散モデルを用いて, 多視点2.5D拡散モデルを用いてこの問題に対処する。
マルチビュー2.5D拡散は、3Dデータの構造分布を直接モデル化するが、元の2D拡散モデルの強力な一般化能力は保ち、2D拡散ベースと直接3D拡散ベースによる3Dコンテンツ生成のギャップを埋める。
推論中に2.5次元拡散を用いて多視点正規写像が生成され、ほぼ一貫した多視点正規写像を一貫した3次元モデルに融合させる新しい微分可能ラスタライズスキームが導入された。
さらに、3次元形状から高速な外観生成のための正規条件付きマルチビュー画像生成モジュールを設計する。
本手法は1パス拡散プロセスであり,後処理としてSDSの最適化は不要である。
提案手法を用いた2.5Dの直接生成により,多種多様,モードフリー,高忠実な3Dコンテンツ生成を10秒で実現できることを示す。
プロジェクトページ: https://nju-3dv.github.io/projects/direct25。
関連論文リスト
- 4Diffusion: Multi-view Video Diffusion Model for 4D Generation [55.82208863521353]
現在の4D生成法は, 高度な拡散生成モデルの助けを借りて, 有意義な有効性を実現している。
モノクロビデオから空間的・時間的に一貫した4Dコンテンツを生成することを目的とした,新しい4D生成パイプライン,すなわち4Diffusionを提案する。
論文 参考訳(メタデータ) (2024-05-31T08:18:39Z) - LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation [73.36690511083894]
本稿では,LN3Diffと呼ばれる新しいフレームワークを導入し,統一された3次元拡散パイプラインに対処する。
提案手法では,3次元アーキテクチャと変分オートエンコーダを用いて,入力画像を構造化されたコンパクトな3次元潜在空間に符号化する。
3次元生成のためのShapeNetの最先端性能を実現し,モノクロ3次元再構成と条件付き3次元生成において優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-18T17:54:34Z) - Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - 3DTopia: Large Text-to-3D Generation Model with Hybrid Diffusion Priors [85.11117452560882]
本稿では,2段階のテキスト・ツー・3D生成システムである3DTopiaについて述べる。
3次元データから直接学習される3次元拡散の第1段階のサンプルは、テキスト条件付き3次元潜伏拡散モデルを用いており、高速なプロトタイピングのための粗い3次元サンプルを迅速に生成する。
第2段階は2次元拡散前処理を利用して、粗い3次元モデルのテクスチャを第1段階からさらに洗練し、高品質なテクスチャ生成のための潜時空間と画素空間の最適化からなる。
論文 参考訳(メタデータ) (2024-03-04T17:26:28Z) - CAD: Photorealistic 3D Generation via Adversarial Distillation [28.07049413820128]
本稿では,事前学習した拡散モデルを用いた3次元合成のための新しい学習パラダイムを提案する。
提案手法は,1つの画像に条件付された高忠実かつ光リアルな3Dコンテンツの生成を解放し,プロンプトを行う。
論文 参考訳(メタデータ) (2023-12-11T18:59:58Z) - MVDream: Multi-view Diffusion for 3D Generation [14.106283556521962]
本稿では,テキストプロンプトから一貫した多視点画像を生成可能な拡散モデルMVDreamを紹介する。
2次元データと3次元データの両方から学習すると、多視点拡散モデルは2次元拡散モデルの一般化可能性と3次元レンダリングの整合性を達成することができる。
論文 参考訳(メタデータ) (2023-08-31T07:49:06Z) - 3D-aware Image Generation using 2D Diffusion Models [23.150456832947427]
我々は、3D対応画像生成タスクをマルチビュー2Dイメージセット生成として定式化し、さらにシーケンシャルな条件なしのマルチビュー画像生成プロセスにも適用する。
本研究では,2次元拡散モデルを用いて生成的モデリング能力を向上する。
我々は,既存の手法では扱えない大規模データセットであるImageNetで,本手法を訓練する。
論文 参考訳(メタデータ) (2023-03-31T09:03:18Z) - HoloDiffusion: Training a 3D Diffusion Model using 2D Images [71.1144397510333]
我々は,2次元画像のみを監督のために配置した,エンドツーエンドでトレーニング可能な新しい拡散装置を導入する。
我々の拡散モデルはスケーラブルで、頑健に訓練されており、既存の3次元生成モデルへのアプローチに対して、サンプルの品質と忠実さの点で競争力があることを示す。
論文 参考訳(メタデータ) (2023-03-29T07:35:56Z) - Improving 3D Imaging with Pre-Trained Perpendicular 2D Diffusion Models [52.529394863331326]
本稿では,2つの垂直2次元拡散モデルを用いて3次元逆問題の解法を提案する。
MRI Z軸超解像, 圧縮センシングMRI, スパースCTなどの3次元医用画像再構成作業に有効である。
論文 参考訳(メタデータ) (2023-03-15T08:28:06Z) - 3D Neural Field Generation using Triplane Diffusion [37.46688195622667]
ニューラルネットワークの3次元認識のための効率的な拡散ベースモデルを提案する。
当社のアプローチでは,ShapeNetメッシュなどのトレーニングデータを,連続的占有フィールドに変換することによって前処理する。
本論文では,ShapeNetのオブジェクトクラスにおける3D生成の現状について述べる。
論文 参考訳(メタデータ) (2022-11-30T01:55:52Z) - TetraDiffusion: Tetrahedral Diffusion Models for 3D Shape Generation [19.976938789105393]
テトラ拡散(TetraDiffusion)は、3次元空間の四面体分割で動作する拡散モデルであり、効率的で高分解能な3次元形状生成を可能にする。
注目すべきは、TetraDiffusionは前例のない解像度で、ほぼリアルタイムで詳細な3Dオブジェクトの迅速なサンプリングを可能にすることだ。
論文 参考訳(メタデータ) (2022-11-23T18:58:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。