論文の概要: 3DTopia-XL: Scaling High-quality 3D Asset Generation via Primitive Diffusion
- arxiv url: http://arxiv.org/abs/2409.12957v1
- Date: Thu, 19 Sep 2024 17:59:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 12:36:59.783188
- Title: 3DTopia-XL: Scaling High-quality 3D Asset Generation via Primitive Diffusion
- Title(参考訳): 3DTopia-XL:原始拡散による高品質3次元アセット生成のスケーリング
- Authors: Zhaoxi Chen, Jiaxiang Tang, Yuhao Dong, Ziang Cao, Fangzhou Hong, Yushi Lan, Tengfei Wang, Haozhe Xie, Tong Wu, Shunsuke Saito, Liang Pan, Dahua Lin, Ziwei Liu,
- Abstract要約: 3DTopia-XLは,既存の手法の限界を克服するために設計された,スケーラブルなネイティブな3D生成モデルである。
3DTopia-XLは、新しいプリミティブベースの3D表現であるPrimXを利用して、詳細な形状、アルベド、マテリアルフィールドをコンパクトなテンソル形式にエンコードする。
その上で, 1) 原始的パッチ圧縮, 2) および潜在的原始的拡散を含む拡散変換器(DiT)に基づく生成フレームワークを提案する。
我々は,3DTopia-XLが既存の手法よりも高い性能を示すことを示すために,広範囲な定性的,定量的な実験を行った。
- 参考スコア(独自算出の注目度): 86.25111098482537
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing demand for high-quality 3D assets across various industries necessitates efficient and automated 3D content creation. Despite recent advancements in 3D generative models, existing methods still face challenges with optimization speed, geometric fidelity, and the lack of assets for physically based rendering (PBR). In this paper, we introduce 3DTopia-XL, a scalable native 3D generative model designed to overcome these limitations. 3DTopia-XL leverages a novel primitive-based 3D representation, PrimX, which encodes detailed shape, albedo, and material field into a compact tensorial format, facilitating the modeling of high-resolution geometry with PBR assets. On top of the novel representation, we propose a generative framework based on Diffusion Transformer (DiT), which comprises 1) Primitive Patch Compression, 2) and Latent Primitive Diffusion. 3DTopia-XL learns to generate high-quality 3D assets from textual or visual inputs. We conduct extensive qualitative and quantitative experiments to demonstrate that 3DTopia-XL significantly outperforms existing methods in generating high-quality 3D assets with fine-grained textures and materials, efficiently bridging the quality gap between generative models and real-world applications.
- Abstract(参考訳): 様々な産業における高品質な3D資産の需要の増加は、効率的で自動化された3Dコンテンツ作成を必要としている。
近年の3D生成モデルの発展にもかかわらず、既存の手法は、最適化速度、幾何学的忠実度、物理ベースレンダリング(PBR)の資産不足といった課題に直面している。
本稿では,これらの制約を克服するために,スケーラブルなネイティブな3D生成モデルである3DTopia-XLを紹介する。
3DTopia-XLはプリミティブベースの新しい3D表現であるPrimXを利用して、詳細な形状、アルベド、物質場をコンパクトなテンソル形式に符号化し、PBR資産による高分解能幾何のモデリングを容易にする。
新たな表現の上に,Diffusion Transformer (DiT) に基づく生成フレームワークを提案する。
1)原始的パッチ圧縮
2)後期原始拡散
3DTopia-XLはテキストやビジュアル入力から高品質な3Dアセットを生成することを学ぶ。
我々は, 3DTopia-XLが, 微粒なテクスチャと材料で高品質な3Dアセットを生成する上で, 既存の手法よりも優れており, 生成モデルと実世界のアプリケーション間の品質ギャップを効率的に埋めることができることを示すために, 広範囲にわたる定性的かつ定量的な実験を行った。
関連論文リスト
- TripoSG: High-Fidelity 3D Shape Synthesis using Large-Scale Rectified Flow Models [69.0220314849478]
TripoSGは入力画像に正確に対応して高忠実度3Dメッシュを生成することができる新しいパラダイムである。
結果として得られた3D形状は、高解像度の能力によって細部を拡大し、入力した現在年齢に対して例外的な忠実さを示す。
3Dジェネレーションの分野における進歩と革新を促進するため、我々はモデルを一般公開する。
論文 参考訳(メタデータ) (2025-02-10T16:07:54Z) - GraphicsDreamer: Image to 3D Generation with Physical Consistency [32.26851174969898]
単一画像から高機能な3Dメッシュを作成する方法であるGraphicsDreamerを紹介する。
幾何融合の段階では、生成した3Dオブジェクトが信頼性の高いテクスチャの詳細を持つことを保証するため、PBRの制約を継続する。
提案手法はトポロジ最適化と高速なUVアンラッピング機能を備えており,3D画像をグラフィクスエンジンにシームレスにインポートすることができる。
論文 参考訳(メタデータ) (2024-12-18T10:01:27Z) - Structured 3D Latents for Scalable and Versatile 3D Generation [28.672494137267837]
汎用的で高品質な3Dアセット作成のための新しい3D生成手法を提案する。
基本となるのは、異なる出力フォーマットへのデコードを可能にする、構造化されたLATent表現である。
これは、疎人口の少ない3Dグリッドと、強力な視覚基盤モデルから抽出された濃密な多視点視覚特徴を統合することで実現される。
論文 参考訳(メタデータ) (2024-12-02T13:58:38Z) - GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation [75.39457097832113]
本稿では,インタラクティブなポイントクラウド構造ラテント空間を備えたスケーラブルで高品質な3D生成を実現する,新しい3D生成フレームワークを提案する。
本フレームワークでは,複数ビューのRGB-D(epth)-N(ormal)レンダリングを入力として使用する変分オートエンコーダを,3次元形状情報を保存する独自のラテント空間設計を用いて構成する。
提案手法であるGaussianAnythingは,複数モード条件付き3D生成をサポートし,ポイントクラウド,キャプション,シングル/マルチビュー画像入力を可能にする。
論文 参考訳(メタデータ) (2024-11-12T18:59:32Z) - Compress3D: a Compressed Latent Space for 3D Generation from a Single Image [27.53099431097921]
トリプレーンオートエンコーダは3次元モデルをコンパクトな3次元ラテント空間に符号化し、3次元幾何情報とテクスチャ情報の両方を圧縮する。
本稿では,低解像度の潜在表現を用いて高解像度の3D特徴量から特徴を問合せする3D対応のクロスアテンション機構を提案する。
われわれのアプローチでは、1つのA100 GPU上で7秒で高品質な3Dアセットを生成できる。
論文 参考訳(メタデータ) (2024-03-20T11:51:04Z) - Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability [118.26563926533517]
自己回帰モデルでは,格子空間における関節分布をモデル化することにより,2次元画像生成において顕著な結果が得られた。
自動回帰モデルを3次元領域に拡張し,キャパシティとスケーラビリティを同時に向上することにより,3次元形状生成の強力な能力を求める。
論文 参考訳(メタデータ) (2024-02-19T15:33:09Z) - Breathing New Life into 3D Assets with Generative Repainting [74.80184575267106]
拡散ベースのテキスト・ツー・イメージ・モデルは、ビジョン・コミュニティ、アーティスト、コンテンツ・クリエーターから大きな注目を集めた。
近年の研究では、拡散モデルとニューラルネットワークの絡み合いを利用した様々なパイプラインが提案されている。
予備訓練された2次元拡散モデルと標準3次元ニューラルラジアンスフィールドのパワーを独立したスタンドアロンツールとして検討する。
我々のパイプラインはテクスチャ化されたメッシュや無テクスチャのメッシュのような、レガシなレンダリング可能な幾何学を受け入れ、2D生成の洗練と3D整合性強化ツール間の相互作用をオーケストレーションします。
論文 参考訳(メタデータ) (2023-09-15T16:34:51Z) - Pushing the Limits of 3D Shape Generation at Scale [65.24420181727615]
我々は、前例のない次元に拡大することで、3次元形状生成において画期的なブレークスルーを示す。
現在までに最大の3次元形状生成モデルとしてArgus-3Dが確立されている。
論文 参考訳(メタデータ) (2023-06-20T13:01:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。