論文の概要: Pushing the Limits of 3D Shape Generation at Scale
- arxiv url: http://arxiv.org/abs/2306.11510v2
- Date: Sat, 19 Aug 2023 12:01:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 23:26:33.388632
- Title: Pushing the Limits of 3D Shape Generation at Scale
- Title(参考訳): 大規模3次元形状生成の限界を押し上げる
- Authors: Yu Wang, Xuelin Qian, Jingyang Huo, Tiejun Huang, Bo Zhao, Yanwei Fu
- Abstract要約: 我々は、前例のない次元に拡大することで、3次元形状生成において画期的なブレークスルーを示す。
現在までに最大の3次元形状生成モデルとしてArgus-3Dが確立されている。
- 参考スコア(独自算出の注目度): 65.24420181727615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a significant breakthrough in 3D shape generation by scaling it to
unprecedented dimensions. Through the adaptation of the Auto-Regressive model
and the utilization of large language models, we have developed a remarkable
model with an astounding 3.6 billion trainable parameters, establishing it as
the largest 3D shape generation model to date, named Argus-3D. Our approach
addresses the limitations of existing methods by enhancing the quality and
diversity of generated 3D shapes. To tackle the challenges of high-resolution
3D shape generation, our model incorporates tri-plane features as latent
representations, effectively reducing computational complexity. Additionally,
we introduce a discrete codebook for efficient quantization of these
representations. Leveraging the power of transformers, we enable multi-modal
conditional generation, facilitating the production of diverse and visually
impressive 3D shapes. To train our expansive model, we leverage an ensemble of
publicly-available 3D datasets, consisting of a comprehensive collection of
approximately 900,000 objects from renowned repositories such as ModelNet40,
ShapeNet, Pix3D, 3D-Future, and Objaverse. This diverse dataset empowers our
model to learn from a wide range of object variations, bolstering its ability
to generate high-quality and diverse 3D shapes. Extensive experimentation
demonstrate the remarkable efficacy of our approach in significantly improving
the visual quality of generated 3D shapes. By pushing the boundaries of 3D
generation, introducing novel methods for latent representation learning, and
harnessing the power of transformers for multi-modal conditional generation,
our contributions pave the way for substantial advancements in the field. Our
work unlocks new possibilities for applications in gaming, virtual reality,
product design, and other domains that demand high-quality and diverse 3D
objects.
- Abstract(参考訳): 我々は,前例のない次元に拡大することで,3次元形状生成における大きなブレークスルーを示す。
自己回帰モデルの適用と大規模言語モデルの利用を通じて,360億のトレーニング可能なパラメータを持つ驚くべきモデルを開発し,argus-3dという,これまでで最大の3次元形状生成モデルとして確立した。
提案手法は,生成した3次元形状の品質と多様性を高めることで,既存の手法の限界に対処する。
高分解能3次元形状生成の課題に取り組むため,三平面特徴を潜在表現として取り入れ,計算複雑性を効果的に低減した。
さらに,これらの表現の効率的な量子化のための離散コードブックも紹介する。
変圧器のパワーを活用することで,マルチモーダル条件生成を可能にし,多様で視覚的に印象的な3d形状の生成を容易にする。
拡張モデルをトレーニングするために、ModelNet40、ShapeNet、Pix3D、3D-Future、Objaverseといった有名なリポジトリから約90,000オブジェクトの包括的なコレクションで構成された、公開可能な3Dデータセットの集合を利用する。
この多様なデータセットは、我々のモデルに幅広い種類のオブジェクトから学習する権限を与え、高品質で多様な3D形状を生成する能力を高めます。
広範な実験により, 生成した3次元形状の視覚的品質を著しく向上させる効果が示された。
3次元生成の限界を押し進め、潜在表現学習のための新しい手法を導入し、マルチモーダル条件生成にトランスフォーマーのパワーを活用することで、この分野における実質的な進歩への道を開いた。
私たちの仕事は、高品質で多様な3Dオブジェクトを必要とするゲーム、バーチャルリアリティ、製品デザイン、その他の分野のアプリケーションに新たな可能性を開く。
関連論文リスト
- GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation [75.39457097832113]
本稿では,インタラクティブなポイントクラウド構造ラテント空間を備えたスケーラブルで高品質な3D生成を実現する,新しい3D生成フレームワークを提案する。
本フレームワークでは,複数ビューのRGB-D(epth)-N(ormal)レンダリングを入力として使用する変分オートエンコーダを,3次元形状情報を保存する独自のラテント空間設計を用いて構成する。
提案手法であるGaussianAnythingは,複数モード条件付き3D生成をサポートし,ポイントクラウド,キャプション,シングル/マルチビュー画像入力を可能にする。
論文 参考訳(メタデータ) (2024-11-12T18:59:32Z) - CLAY: A Controllable Large-scale Generative Model for Creating High-quality 3D Assets [43.315487682462845]
CLAYは、人間の想像力を複雑な3Dデジタル構造に変換するために設計された3D幾何学および材料生成装置である。
中心となるのは、多解像度変分オートエンコーダ(VAE)と最小遅延拡散変換器(DiT)からなる大規模生成モデルである。
我々はCLAYを、スケッチ的な概念設計から複雑な詳細を持つ生産可能な資産まで、様々な制御可能な3Dアセット作成に活用することを実証する。
論文 参考訳(メタデータ) (2024-05-30T05:57:36Z) - DiffTF++: 3D-aware Diffusion Transformer for Large-Vocabulary 3D Generation [53.20147419879056]
拡散型フィードフォワードフレームワークを導入し,単一モデルで課題に対処する。
TransFormerを用いた3D対応拡散モデルを構築し,より強力な3D生成,すなわちDiffTF++を提案する。
ShapeNetとOmniObject3Dの実験は、提案したモジュールの有効性を確実に実証している。
論文 参考訳(メタデータ) (2024-05-13T17:59:51Z) - LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation [73.36690511083894]
本稿では,LN3Diffと呼ばれる新しいフレームワークを導入し,統一された3次元拡散パイプラインに対処する。
提案手法では,3次元アーキテクチャと変分オートエンコーダを用いて,入力画像を構造化されたコンパクトな3次元潜在空間に符号化する。
3次元生成のためのShapeNetの最先端性能を実現し,モノクロ3次元再構成と条件付き3次元生成において優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-18T17:54:34Z) - Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability [118.26563926533517]
自己回帰モデルでは,格子空間における関節分布をモデル化することにより,2次元画像生成において顕著な結果が得られた。
自動回帰モデルを3次元領域に拡張し,キャパシティとスケーラビリティを同時に向上することにより,3次元形状生成の強力な能力を求める。
論文 参考訳(メタデータ) (2024-02-19T15:33:09Z) - Large-Vocabulary 3D Diffusion Model with Transformer [57.076986347047]
本稿では,1つの生成モデルを用いて実世界の3Dオブジェクトの大規模カテゴリを合成するための拡散型フィードフォワードフレームワークを提案する。
本稿では,三面体を用いた3次元拡散モデル(TransFormer, DiffTF)を提案する。
ShapeNetとOmniObject3Dの実験は、単一のDiffTFモデルが最先端の大語彙3Dオブジェクト生成性能を達成することを確実に実証している。
論文 参考訳(メタデータ) (2023-09-14T17:59:53Z) - 3D Neural Field Generation using Triplane Diffusion [37.46688195622667]
ニューラルネットワークの3次元認識のための効率的な拡散ベースモデルを提案する。
当社のアプローチでは,ShapeNetメッシュなどのトレーニングデータを,連続的占有フィールドに変換することによって前処理する。
本論文では,ShapeNetのオブジェクトクラスにおける3D生成の現状について述べる。
論文 参考訳(メタデータ) (2022-11-30T01:55:52Z) - Learning to Generate 3D Shapes from a Single Example [28.707149807472685]
本稿では,入力形状の幾何学的特徴を空間的範囲にわたって捉えるために,マルチスケールのGANモデルを提案する。
我々は、外部の監督や手動のアノテーションを必要とせずに、基準形状のボクセルピラミッドで生成モデルを訓練する。
結果の形状は異なるスケールで変化を示し、同時に基準形状のグローバルな構造を保持する。
論文 参考訳(メタデータ) (2022-08-05T01:05:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。