論文の概要: 3DTopia-XL: Scaling High-quality 3D Asset Generation via Primitive Diffusion
- arxiv url: http://arxiv.org/abs/2409.12957v1
- Date: Thu, 19 Sep 2024 17:59:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 12:36:59.783188
- Title: 3DTopia-XL: Scaling High-quality 3D Asset Generation via Primitive Diffusion
- Title(参考訳): 3DTopia-XL:原始拡散による高品質3次元アセット生成のスケーリング
- Authors: Zhaoxi Chen, Jiaxiang Tang, Yuhao Dong, Ziang Cao, Fangzhou Hong, Yushi Lan, Tengfei Wang, Haozhe Xie, Tong Wu, Shunsuke Saito, Liang Pan, Dahua Lin, Ziwei Liu,
- Abstract要約: 3DTopia-XLは,既存の手法の限界を克服するために設計された,スケーラブルなネイティブな3D生成モデルである。
3DTopia-XLは、新しいプリミティブベースの3D表現であるPrimXを利用して、詳細な形状、アルベド、マテリアルフィールドをコンパクトなテンソル形式にエンコードする。
その上で, 1) 原始的パッチ圧縮, 2) および潜在的原始的拡散を含む拡散変換器(DiT)に基づく生成フレームワークを提案する。
我々は,3DTopia-XLが既存の手法よりも高い性能を示すことを示すために,広範囲な定性的,定量的な実験を行った。
- 参考スコア(独自算出の注目度): 86.25111098482537
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing demand for high-quality 3D assets across various industries necessitates efficient and automated 3D content creation. Despite recent advancements in 3D generative models, existing methods still face challenges with optimization speed, geometric fidelity, and the lack of assets for physically based rendering (PBR). In this paper, we introduce 3DTopia-XL, a scalable native 3D generative model designed to overcome these limitations. 3DTopia-XL leverages a novel primitive-based 3D representation, PrimX, which encodes detailed shape, albedo, and material field into a compact tensorial format, facilitating the modeling of high-resolution geometry with PBR assets. On top of the novel representation, we propose a generative framework based on Diffusion Transformer (DiT), which comprises 1) Primitive Patch Compression, 2) and Latent Primitive Diffusion. 3DTopia-XL learns to generate high-quality 3D assets from textual or visual inputs. We conduct extensive qualitative and quantitative experiments to demonstrate that 3DTopia-XL significantly outperforms existing methods in generating high-quality 3D assets with fine-grained textures and materials, efficiently bridging the quality gap between generative models and real-world applications.
- Abstract(参考訳): 様々な産業における高品質な3D資産の需要の増加は、効率的で自動化された3Dコンテンツ作成を必要としている。
近年の3D生成モデルの発展にもかかわらず、既存の手法は、最適化速度、幾何学的忠実度、物理ベースレンダリング(PBR)の資産不足といった課題に直面している。
本稿では,これらの制約を克服するために,スケーラブルなネイティブな3D生成モデルである3DTopia-XLを紹介する。
3DTopia-XLはプリミティブベースの新しい3D表現であるPrimXを利用して、詳細な形状、アルベド、物質場をコンパクトなテンソル形式に符号化し、PBR資産による高分解能幾何のモデリングを容易にする。
新たな表現の上に,Diffusion Transformer (DiT) に基づく生成フレームワークを提案する。
1)原始的パッチ圧縮
2)後期原始拡散
3DTopia-XLはテキストやビジュアル入力から高品質な3Dアセットを生成することを学ぶ。
我々は, 3DTopia-XLが, 微粒なテクスチャと材料で高品質な3Dアセットを生成する上で, 既存の手法よりも優れており, 生成モデルと実世界のアプリケーション間の品質ギャップを効率的に埋めることができることを示すために, 広範囲にわたる定性的かつ定量的な実験を行った。
関連論文リスト
- GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation [75.39457097832113]
本稿では,インタラクティブなポイントクラウド構造ラテント空間を備えたスケーラブルで高品質な3D生成を実現する,新しい3D生成フレームワークを提案する。
本フレームワークでは,複数ビューのRGB-D(epth)-N(ormal)レンダリングを入力として使用する変分オートエンコーダを,3次元形状情報を保存する独自のラテント空間設計を用いて構成する。
提案手法であるGaussianAnythingは,複数モード条件付き3D生成をサポートし,ポイントクラウド,キャプション,シングル/マルチビュー画像入力を可能にする。
論文 参考訳(メタデータ) (2024-11-12T18:59:32Z) - ScalingGaussian: Enhancing 3D Content Creation with Generative Gaussian Splatting [30.99112626706754]
高品質な3Dアセットの作成は、デジタル遺産、エンターテイメント、ロボット工学の応用において最重要である。
伝統的に、このプロセスはモデリングに熟練した専門家と専門的なソフトウェアを必要とする。
本稿では,3Dテクスチャを効率的に生成する新しい3Dコンテンツ作成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-26T18:26:01Z) - CLAY: A Controllable Large-scale Generative Model for Creating High-quality 3D Assets [43.315487682462845]
CLAYは、人間の想像力を複雑な3Dデジタル構造に変換するために設計された3D幾何学および材料生成装置である。
中心となるのは、多解像度変分オートエンコーダ(VAE)と最小遅延拡散変換器(DiT)からなる大規模生成モデルである。
我々はCLAYを、スケッチ的な概念設計から複雑な詳細を持つ生産可能な資産まで、様々な制御可能な3Dアセット作成に活用することを実証する。
論文 参考訳(メタデータ) (2024-05-30T05:57:36Z) - Compress3D: a Compressed Latent Space for 3D Generation from a Single Image [27.53099431097921]
トリプレーンオートエンコーダは3次元モデルをコンパクトな3次元ラテント空間に符号化し、3次元幾何情報とテクスチャ情報の両方を圧縮する。
本稿では,低解像度の潜在表現を用いて高解像度の3D特徴量から特徴を問合せする3D対応のクロスアテンション機構を提案する。
われわれのアプローチでは、1つのA100 GPU上で7秒で高品質な3Dアセットを生成できる。
論文 参考訳(メタデータ) (2024-03-20T11:51:04Z) - LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation [73.36690511083894]
本稿では,LN3Diffと呼ばれる新しいフレームワークを導入し,統一された3次元拡散パイプラインに対処する。
提案手法では,3次元アーキテクチャと変分オートエンコーダを用いて,入力画像を構造化されたコンパクトな3次元潜在空間に符号化する。
3次元生成のためのShapeNetの最先端性能を実現し,モノクロ3次元再構成と条件付き3次元生成において優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-18T17:54:34Z) - Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability [118.26563926533517]
自己回帰モデルでは,格子空間における関節分布をモデル化することにより,2次元画像生成において顕著な結果が得られた。
自動回帰モデルを3次元領域に拡張し,キャパシティとスケーラビリティを同時に向上することにより,3次元形状生成の強力な能力を求める。
論文 参考訳(メタデータ) (2024-02-19T15:33:09Z) - Breathing New Life into 3D Assets with Generative Repainting [74.80184575267106]
拡散ベースのテキスト・ツー・イメージ・モデルは、ビジョン・コミュニティ、アーティスト、コンテンツ・クリエーターから大きな注目を集めた。
近年の研究では、拡散モデルとニューラルネットワークの絡み合いを利用した様々なパイプラインが提案されている。
予備訓練された2次元拡散モデルと標準3次元ニューラルラジアンスフィールドのパワーを独立したスタンドアロンツールとして検討する。
我々のパイプラインはテクスチャ化されたメッシュや無テクスチャのメッシュのような、レガシなレンダリング可能な幾何学を受け入れ、2D生成の洗練と3D整合性強化ツール間の相互作用をオーケストレーションします。
論文 参考訳(メタデータ) (2023-09-15T16:34:51Z) - Pushing the Limits of 3D Shape Generation at Scale [65.24420181727615]
我々は、前例のない次元に拡大することで、3次元形状生成において画期的なブレークスルーを示す。
現在までに最大の3次元形状生成モデルとしてArgus-3Dが確立されている。
論文 参考訳(メタデータ) (2023-06-20T13:01:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。