論文の概要: Point-E: A System for Generating 3D Point Clouds from Complex Prompts
- arxiv url: http://arxiv.org/abs/2212.08751v1
- Date: Fri, 16 Dec 2022 23:22:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 15:28:14.004880
- Title: Point-E: A System for Generating 3D Point Clouds from Complex Prompts
- Title(参考訳): Point-E:複雑なプロンプトから3次元点雲を生成するシステム
- Authors: Alex Nichol, Heewoo Jun, Prafulla Dhariwal, Pamela Mishkin, Mark Chen
- Abstract要約: 本稿では,1つのGPU上でわずか1~2分で3Dモデルを生成する3Dオブジェクト生成法を提案する。
提案手法は,まずテキスト・画像拡散モデルを用いて単一合成ビューを生成し,次いで生成した画像に条件付けした第2拡散モデルを用いて3次元点雲を生成する。
サンプルの品質という点では,我々の手法はまだ最先端には達していないが,サンプルの処理は最大で1~2桁高速であり,いくつかのユースケースにおいて実用的なトレードオフを提供する。
- 参考スコア(独自算出の注目度): 15.872304376606223
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While recent work on text-conditional 3D object generation has shown
promising results, the state-of-the-art methods typically require multiple
GPU-hours to produce a single sample. This is in stark contrast to
state-of-the-art generative image models, which produce samples in a number of
seconds or minutes. In this paper, we explore an alternative method for 3D
object generation which produces 3D models in only 1-2 minutes on a single GPU.
Our method first generates a single synthetic view using a text-to-image
diffusion model, and then produces a 3D point cloud using a second diffusion
model which conditions on the generated image. While our method still falls
short of the state-of-the-art in terms of sample quality, it is one to two
orders of magnitude faster to sample from, offering a practical trade-off for
some use cases. We release our pre-trained point cloud diffusion models, as
well as evaluation code and models, at https://github.com/openai/point-e.
- Abstract(参考訳): テキスト条件の3Dオブジェクト生成に関する最近の研究は有望な結果を示しているが、最先端の手法は通常、単一のサンプルを生成するために複数のGPU時間を必要とする。
これは、数秒または数分でサンプルを生成する最先端の生成画像モデルとは対照的である。
本稿では,1つのGPU上でわずか1~2分で3Dモデルを生成する3Dオブジェクト生成法を提案する。
提案手法は,まずテキスト・画像拡散モデルを用いて単一合成ビューを生成し,次いで生成した画像に条件付けした第2拡散モデルを用いて3次元点雲を生成する。
サンプルの品質に関しては,まだ最先端の手法には達していないが,サンプルから抽出する速度は1~2桁速く,ユースケースによっては実用上のトレードオフがある。
事前トレーニング済みのpoint cloud diffusionモデルと評価コードとモデルをhttps://github.com/openai/point-eでリリースしています。
関連論文リスト
- Any-to-3D Generation via Hybrid Diffusion Supervision [67.54197818071464]
XBindは、クロスモーダルな事前アライメント技術を用いた、任意の3D生成のための統一されたフレームワークである。
XBindは、任意のモダリティから3Dオブジェクトを生成するために、事前訓練された拡散モデルとマルチモーダル整列エンコーダを統合する。
論文 参考訳(メタデータ) (2024-11-22T03:52:37Z) - Baking Gaussian Splatting into Diffusion Denoiser for Fast and Scalable Single-stage Image-to-3D Generation [45.95218923564575]
単一視点からのオブジェクトおよびシーン生成のための新しい1段3次元拡散モデルDiffusionGSを提案する。
実験の結果,PSNRでは2.20dB,FIDでは23.25dB,SOTA法では5倍以上の速度(A100 GPUでは6s)が得られた。
論文 参考訳(メタデータ) (2024-11-21T18:21:24Z) - Sampling 3D Gaussian Scenes in Seconds with Latent Diffusion Models [3.9373541926236766]
本稿では,2次元画像データのみを用いて3次元シーン上での潜時拡散モデルを提案する。
我々は,スクラッチからでもスパースインプットビューからでも,わずか0.2秒で3Dシーンを生成することができることを示す。
論文 参考訳(メタデータ) (2024-06-18T23:14:29Z) - Isotropic3D: Image-to-3D Generation Based on a Single CLIP Embedding [16.50466940644004]
入力としてCLIPを埋め込んだ画像のみを取り込む画像から3D生成パイプラインであるIsotropic3Dを提案する。
等方性3Dは、最適化をSDS損失のみを静止させることで、方位角の等方性w.r.t.にすることができる。
論文 参考訳(メタデータ) (2024-03-15T15:27:58Z) - 3DTopia: Large Text-to-3D Generation Model with Hybrid Diffusion Priors [85.11117452560882]
本稿では,2段階のテキスト・ツー・3D生成システムである3DTopiaについて述べる。
3次元データから直接学習される3次元拡散の第1段階のサンプルは、テキスト条件付き3次元潜伏拡散モデルを用いており、高速なプロトタイピングのための粗い3次元サンプルを迅速に生成する。
第2段階は2次元拡散前処理を利用して、粗い3次元モデルのテクスチャを第1段階からさらに洗練し、高品質なテクスチャ生成のための潜時空間と画素空間の最適化からなる。
論文 参考訳(メタデータ) (2024-03-04T17:26:28Z) - Instant3D: Fast Text-to-3D with Sparse-View Generation and Large
Reconstruction Model [68.98311213582949]
テキストプロンプトから高品質で多様な3Dアセットをフィードフォワードで生成する新しい手法であるInstant3Dを提案する。
提案手法は,従来の最適化手法よりも2桁早く,20秒以内に高画質の多種多様な3Dアセットを生成できる。
論文 参考訳(メタデータ) (2023-11-10T18:03:44Z) - GaussianDreamer: Fast Generation from Text to 3D Gaussians by Bridging 2D and 3D Diffusion Models [102.22388340738536]
2Dおよび3D拡散モデルは、プロンプトに基づいて適切な3Dオブジェクトを生成することができる。
3次元拡散モデルには優れた3次元整合性があるが、トレーニング可能な3次元データは高価で入手が難しいため、その品質と一般化は制限されている。
本稿では,2種類の拡散モデルから近年の明示的かつ効率的な3次元ガウススプラッティング表現を通じて電力を橋渡ししようとする。
論文 参考訳(メタデータ) (2023-10-12T17:22:24Z) - Viewset Diffusion: (0-)Image-Conditioned 3D Generative Models from 2D
Data [76.38261311948649]
Viewset Diffusionは拡散に基づくジェネレータで、3Dオブジェクトを出力する。
拡散モデルをトレーニングし、ビューセットを生成するが、ニューラルネットワークジェネレータを設計し、内部で対応する3Dモデルを再構成する。
モデルはフィードフォワード方式で効率的に再構成を行い、ビューセット当たり3ビューのレンダリング損失のみを用いてトレーニングされる。
論文 参考訳(メタデータ) (2023-06-13T16:18:51Z) - Shap-E: Generating Conditional 3D Implicit Functions [7.603750555294962]
Shap-Eは3Dアセットの条件付き生成モデルである。
まず、3Dアセットを暗黙の関数のパラメータに決定的にマッピングするエンコーダを訓練する。
ペア化された3Dデータとテキストデータの大規模なデータセットでトレーニングすると、得られたモデルは、数秒で複雑で多様な3Dアセットを生成することができる。
論文 参考訳(メタデータ) (2023-05-03T23:59:13Z) - Novel View Synthesis with Diffusion Models [56.55571338854636]
本稿では,3Dノベルビュー合成のための拡散モデルである3DiMを提案する。
単一のインプットビューを多くのビューで一貫したシャープな補完に変換することができる。
3DiMは、条件付けと呼ばれる新しい技術を使って、3D一貫性のある複数のビューを生成することができる。
論文 参考訳(メタデータ) (2022-10-06T16:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。