論文の概要: CLAY: A Controllable Large-scale Generative Model for Creating High-quality 3D Assets
- arxiv url: http://arxiv.org/abs/2406.13897v1
- Date: Thu, 30 May 2024 05:57:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-23 13:15:04.270822
- Title: CLAY: A Controllable Large-scale Generative Model for Creating High-quality 3D Assets
- Title(参考訳): CLAY:高品質な3Dアセット作成のための制御可能な大規模生成モデル
- Authors: Longwen Zhang, Ziyu Wang, Qixuan Zhang, Qiwei Qiu, Anqi Pang, Haoran Jiang, Wei Yang, Lan Xu, Jingyi Yu,
- Abstract要約: CLAYは、人間の想像力を複雑な3Dデジタル構造に変換するために設計された3D幾何学および材料生成装置である。
中心となるのは、多解像度変分オートエンコーダ(VAE)と最小遅延拡散変換器(DiT)からなる大規模生成モデルである。
我々はCLAYを、スケッチ的な概念設計から複雑な詳細を持つ生産可能な資産まで、様々な制御可能な3Dアセット作成に活用することを実証する。
- 参考スコア(独自算出の注目度): 43.315487682462845
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In the realm of digital creativity, our potential to craft intricate 3D worlds from imagination is often hampered by the limitations of existing digital tools, which demand extensive expertise and efforts. To narrow this disparity, we introduce CLAY, a 3D geometry and material generator designed to effortlessly transform human imagination into intricate 3D digital structures. CLAY supports classic text or image inputs as well as 3D-aware controls from diverse primitives (multi-view images, voxels, bounding boxes, point clouds, implicit representations, etc). At its core is a large-scale generative model composed of a multi-resolution Variational Autoencoder (VAE) and a minimalistic latent Diffusion Transformer (DiT), to extract rich 3D priors directly from a diverse range of 3D geometries. Specifically, it adopts neural fields to represent continuous and complete surfaces and uses a geometry generative module with pure transformer blocks in latent space. We present a progressive training scheme to train CLAY on an ultra large 3D model dataset obtained through a carefully designed processing pipeline, resulting in a 3D native geometry generator with 1.5 billion parameters. For appearance generation, CLAY sets out to produce physically-based rendering (PBR) textures by employing a multi-view material diffusion model that can generate 2K resolution textures with diffuse, roughness, and metallic modalities. We demonstrate using CLAY for a range of controllable 3D asset creations, from sketchy conceptual designs to production ready assets with intricate details. Even first time users can easily use CLAY to bring their vivid 3D imaginations to life, unleashing unlimited creativity.
- Abstract(参考訳): デジタルクリエイティビティの領域では、想像力から複雑な3D世界を創造する可能性はしばしば、既存のデジタルツールの限界によって妨げられています。
この格差を狭めるために,人間の想像力を複雑な3Dデジタル構造に変換するために設計された3次元幾何学および材料生成装置であるCLAYを紹介する。
CLAYは、古典的なテキストやイメージ入力だけでなく、さまざまなプリミティブ(マルチビューイメージ、ボクセル、バウンディングボックス、ポイントクラウド、暗黙の表現など)からの3D対応コントロールもサポートする。
中心となるのは、多解像度変分オートエンコーダ(VAE)と最小限の遅延拡散変換器(DiT)で構成される大規模な生成モデルで、多様な3次元測地からリッチな3D先行情報を直接抽出する。
具体的には、連続かつ完備な曲面を表現するためにニューラルネットワークを採用し、潜在空間に純粋なトランスフォーマーブロックを持つ幾何生成モジュールを使用する。
我々は、慎重に設計された処理パイプラインを通して得られた超大規模3次元モデルデータセットに基づいてCLAYを訓練するプログレッシブトレーニング手法を提案し、その結果、15億のパラメータを持つ3次元ネイティブジオメトリを生成する。
外観生成のために、CLAYは2K解像度のテクスチャを拡散、粗さ、金属モードで生成できる多視点材料拡散モデルを用いて物理ベースレンダリング(PBR)テクスチャを作成する。
我々はCLAYを、スケッチ的な概念設計から複雑な詳細を持つ生産可能な資産まで、様々な制御可能な3Dアセット作成に活用することを実証する。
初めてでも、CLAYを使って鮮明な3D想像力を生かし、無限の創造性を生み出すことができる。
関連論文リスト
- 3DTopia-XL: Scaling High-quality 3D Asset Generation via Primitive Diffusion [86.25111098482537]
3DTopia-XLは,既存の手法の限界を克服するために設計された,スケーラブルなネイティブな3D生成モデルである。
3DTopia-XLは、新しいプリミティブベースの3D表現であるPrimXを利用して、詳細な形状、アルベド、マテリアルフィールドをコンパクトなテンソル形式にエンコードする。
その上で, 1) 原始的パッチ圧縮, 2) および潜在的原始的拡散を含む拡散変換器(DiT)に基づく生成フレームワークを提案する。
我々は,3DTopia-XLが既存の手法よりも高い性能を示すことを示すために,広範囲な定性的,定量的な実験を行った。
論文 参考訳(メタデータ) (2024-09-19T17:59:06Z) - CraftsMan: High-fidelity Mesh Generation with 3D Native Generation and Interactive Geometry Refiner [34.78919665494048]
CraftsManは、非常に多様な形状、通常のメッシュトポロジ、詳細な表面を持つ高忠実な3Dジオメトリを生成することができる。
本手法は,従来の方法に比べて高品質な3Dアセットの製作に有効である。
論文 参考訳(メタデータ) (2024-05-23T18:30:12Z) - En3D: An Enhanced Generative Model for Sculpting 3D Humans from 2D
Synthetic Data [36.51674664590734]
本研究では,高品質な3次元アバターの小型化を図ったEn3Dを提案する。
従来の3Dデータセットの不足や、視角が不均衡な限られた2Dコレクションと異なり、本研究の目的は、ゼロショットで3D人間を作れる3Dの開発である。
論文 参考訳(メタデータ) (2024-01-02T12:06:31Z) - Large-Vocabulary 3D Diffusion Model with Transformer [57.076986347047]
本稿では,1つの生成モデルを用いて実世界の3Dオブジェクトの大規模カテゴリを合成するための拡散型フィードフォワードフレームワークを提案する。
本稿では,三面体を用いた3次元拡散モデル(TransFormer, DiffTF)を提案する。
ShapeNetとOmniObject3Dの実験は、単一のDiffTFモデルが最先端の大語彙3Dオブジェクト生成性能を達成することを確実に実証している。
論文 参考訳(メタデータ) (2023-09-14T17:59:53Z) - Efficient 3D Articulated Human Generation with Layered Surface Volumes [131.3802971483426]
我々は,デジタル人間のための新しい3次元オブジェクト表現として,層状表面体積(LSV)を導入する。
LSVは、従来のテンプレートの周囲の複数のテクスチャ層を使用して人体を表現する。
2Dジェネレータは個々のレイヤのRGBAテクスチャを合成することを学ぶ。
論文 参考訳(メタデータ) (2023-07-11T17:50:02Z) - Pushing the Limits of 3D Shape Generation at Scale [65.24420181727615]
我々は、前例のない次元に拡大することで、3次元形状生成において画期的なブレークスルーを示す。
現在までに最大の3次元形状生成モデルとしてArgus-3Dが確立されている。
論文 参考訳(メタデータ) (2023-06-20T13:01:19Z) - GET3D: A Generative Model of High Quality 3D Textured Shapes Learned
from Images [72.15855070133425]
本稿では,複雑なトポロジ,リッチな幾何学的ディテール,高忠実度テクスチャを備えたExplicit Textured 3Dメッシュを直接生成する生成モデルであるGET3Dを紹介する。
GET3Dは、車、椅子、動物、バイク、人間キャラクターから建物まで、高品質な3Dテクスチャメッシュを生成することができる。
論文 参考訳(メタデータ) (2022-09-22T17:16:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。