論文の概要: Point-E: A System for Generating 3D Point Clouds from Complex Prompts
- arxiv url: http://arxiv.org/abs/2212.08751v1
- Date: Fri, 16 Dec 2022 23:22:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 15:28:14.004880
- Title: Point-E: A System for Generating 3D Point Clouds from Complex Prompts
- Title(参考訳): Point-E:複雑なプロンプトから3次元点雲を生成するシステム
- Authors: Alex Nichol, Heewoo Jun, Prafulla Dhariwal, Pamela Mishkin, Mark Chen
- Abstract要約: 本稿では,1つのGPU上でわずか1~2分で3Dモデルを生成する3Dオブジェクト生成法を提案する。
提案手法は,まずテキスト・画像拡散モデルを用いて単一合成ビューを生成し,次いで生成した画像に条件付けした第2拡散モデルを用いて3次元点雲を生成する。
サンプルの品質という点では,我々の手法はまだ最先端には達していないが,サンプルの処理は最大で1~2桁高速であり,いくつかのユースケースにおいて実用的なトレードオフを提供する。
- 参考スコア(独自算出の注目度): 15.872304376606223
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While recent work on text-conditional 3D object generation has shown
promising results, the state-of-the-art methods typically require multiple
GPU-hours to produce a single sample. This is in stark contrast to
state-of-the-art generative image models, which produce samples in a number of
seconds or minutes. In this paper, we explore an alternative method for 3D
object generation which produces 3D models in only 1-2 minutes on a single GPU.
Our method first generates a single synthetic view using a text-to-image
diffusion model, and then produces a 3D point cloud using a second diffusion
model which conditions on the generated image. While our method still falls
short of the state-of-the-art in terms of sample quality, it is one to two
orders of magnitude faster to sample from, offering a practical trade-off for
some use cases. We release our pre-trained point cloud diffusion models, as
well as evaluation code and models, at https://github.com/openai/point-e.
- Abstract(参考訳): テキスト条件の3Dオブジェクト生成に関する最近の研究は有望な結果を示しているが、最先端の手法は通常、単一のサンプルを生成するために複数のGPU時間を必要とする。
これは、数秒または数分でサンプルを生成する最先端の生成画像モデルとは対照的である。
本稿では,1つのGPU上でわずか1~2分で3Dモデルを生成する3Dオブジェクト生成法を提案する。
提案手法は,まずテキスト・画像拡散モデルを用いて単一合成ビューを生成し,次いで生成した画像に条件付けした第2拡散モデルを用いて3次元点雲を生成する。
サンプルの品質に関しては,まだ最先端の手法には達していないが,サンプルから抽出する速度は1~2桁速く,ユースケースによっては実用上のトレードオフがある。
事前トレーニング済みのpoint cloud diffusionモデルと評価コードとモデルをhttps://github.com/openai/point-eでリリースしています。
関連論文リスト
- 3DTopia: Large Text-to-3D Generation Model with Hybrid Diffusion Priors [86.31822685078642]
本稿では,2段階のテキスト・ツー・3D生成システムである3DTopiaについて述べる。
3次元データから直接学習される3次元拡散の第1段階のサンプルは、テキスト条件付き3次元潜伏拡散モデルを用いており、高速なプロトタイピングのための粗い3次元サンプルを迅速に生成する。
第2段階は2次元拡散前処理を利用して、粗い3次元モデルのテクスチャを第1段階からさらに洗練し、高品質なテクスチャ生成のための潜時空間と画素空間の最適化からなる。
論文 参考訳(メタデータ) (2024-03-04T17:26:28Z) - GOEnFusion: Gradient Origin Encodings for 3D Forward Diffusion Models [77.03830223281787]
GOEnは、事前訓練された画像特徴抽出器を使わずに、任意の種類の3D表現に画像をエンコードする。
提案するGOEnFusionモデルは,フォワード拡散モデルを実現したGOEnエンコーディングとペアリングする。
我々は,GOEn機構が符号化された表現にどの程度の情報を転送するか,基礎となる3Dシーンの事前分布をどの程度正確に捉えているかを評価する。
論文 参考訳(メタデータ) (2023-12-14T08:39:39Z) - Consistent Mesh Diffusion [8.318075237885857]
UVパラメータ化による3Dメッシュを前提として,テキストプロンプトからテクスチャを生成する新しいアプローチを提案する。
当社のアプローチは、30メッシュを含むデータセット上で、メッシュ毎に約5分を要することを実証しています。
論文 参考訳(メタデータ) (2023-12-01T23:25:14Z) - Instant3D: Fast Text-to-3D with Sparse-View Generation and Large
Reconstruction Model [68.98311213582949]
テキストプロンプトから高品質で多様な3Dアセットをフィードフォワードで生成する新しい手法であるInstant3Dを提案する。
提案手法は,従来の最適化手法よりも2桁早く,20秒以内に高画質の多種多様な3Dアセットを生成できる。
論文 参考訳(メタデータ) (2023-11-10T18:03:44Z) - GaussianDreamer: Fast Generation from Text to 3D Gaussians by Bridging
2D and 3D Diffusion Models [106.06810278075223]
2Dおよび3D拡散モデルは、プロンプトに基づいて適切な3Dオブジェクトを生成することができる。
3次元拡散モデルには優れた3次元整合性があるが、トレーニング可能な3次元データは高価で入手が難しいため、その品質と一般化は制限されている。
本稿では,2種類の拡散モデルから近年の明示的かつ効率的な3次元ガウススプラッティング表現を通じて電力を橋渡ししようとする。
論文 参考訳(メタデータ) (2023-10-12T17:22:24Z) - Viewset Diffusion: (0-)Image-Conditioned 3D Generative Models from 2D
Data [76.38261311948649]
Viewset Diffusionは拡散に基づくジェネレータで、3Dオブジェクトを出力する。
拡散モデルをトレーニングし、ビューセットを生成するが、ニューラルネットワークジェネレータを設計し、内部で対応する3Dモデルを再構成する。
モデルはフィードフォワード方式で効率的に再構成を行い、ビューセット当たり3ビューのレンダリング損失のみを用いてトレーニングされる。
論文 参考訳(メタデータ) (2023-06-13T16:18:51Z) - Shap-E: Generating Conditional 3D Implicit Functions [7.603750555294962]
Shap-Eは3Dアセットの条件付き生成モデルである。
まず、3Dアセットを暗黙の関数のパラメータに決定的にマッピングするエンコーダを訓練する。
ペア化された3Dデータとテキストデータの大規模なデータセットでトレーニングすると、得られたモデルは、数秒で複雑で多様な3Dアセットを生成することができる。
論文 参考訳(メタデータ) (2023-05-03T23:59:13Z) - Novel View Synthesis with Diffusion Models [56.55571338854636]
本稿では,3Dノベルビュー合成のための拡散モデルである3DiMを提案する。
単一のインプットビューを多くのビューで一貫したシャープな補完に変換することができる。
3DiMは、条件付けと呼ばれる新しい技術を使って、3D一貫性のある複数のビューを生成することができる。
論文 参考訳(メタデータ) (2022-10-06T16:59:56Z) - Leveraging 2D Data to Learn Textured 3D Mesh Generation [33.32377849866736]
テクスチャ化された3Dメッシュの最初の生成モデルを示す。
我々は、各画像を3Dフォアグラウンドオブジェクトとしてモデル化することで、画像の分布を説明するためにモデルを訓練する。
レンダリングされたメッシュを生成して、トレーニングセットと同じようなイメージを生成する。
論文 参考訳(メタデータ) (2020-04-08T18:00:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。