論文の概要: Pushing the Limits of 3D Shape Generation at Scale
- arxiv url: http://arxiv.org/abs/2306.11510v2
- Date: Sat, 19 Aug 2023 12:01:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 23:26:33.388632
- Title: Pushing the Limits of 3D Shape Generation at Scale
- Title(参考訳): 大規模3次元形状生成の限界を押し上げる
- Authors: Yu Wang, Xuelin Qian, Jingyang Huo, Tiejun Huang, Bo Zhao, Yanwei Fu
- Abstract要約: 我々は、前例のない次元に拡大することで、3次元形状生成において画期的なブレークスルーを示す。
現在までに最大の3次元形状生成モデルとしてArgus-3Dが確立されている。
- 参考スコア(独自算出の注目度): 65.24420181727615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a significant breakthrough in 3D shape generation by scaling it to
unprecedented dimensions. Through the adaptation of the Auto-Regressive model
and the utilization of large language models, we have developed a remarkable
model with an astounding 3.6 billion trainable parameters, establishing it as
the largest 3D shape generation model to date, named Argus-3D. Our approach
addresses the limitations of existing methods by enhancing the quality and
diversity of generated 3D shapes. To tackle the challenges of high-resolution
3D shape generation, our model incorporates tri-plane features as latent
representations, effectively reducing computational complexity. Additionally,
we introduce a discrete codebook for efficient quantization of these
representations. Leveraging the power of transformers, we enable multi-modal
conditional generation, facilitating the production of diverse and visually
impressive 3D shapes. To train our expansive model, we leverage an ensemble of
publicly-available 3D datasets, consisting of a comprehensive collection of
approximately 900,000 objects from renowned repositories such as ModelNet40,
ShapeNet, Pix3D, 3D-Future, and Objaverse. This diverse dataset empowers our
model to learn from a wide range of object variations, bolstering its ability
to generate high-quality and diverse 3D shapes. Extensive experimentation
demonstrate the remarkable efficacy of our approach in significantly improving
the visual quality of generated 3D shapes. By pushing the boundaries of 3D
generation, introducing novel methods for latent representation learning, and
harnessing the power of transformers for multi-modal conditional generation,
our contributions pave the way for substantial advancements in the field. Our
work unlocks new possibilities for applications in gaming, virtual reality,
product design, and other domains that demand high-quality and diverse 3D
objects.
- Abstract(参考訳): 我々は,前例のない次元に拡大することで,3次元形状生成における大きなブレークスルーを示す。
自己回帰モデルの適用と大規模言語モデルの利用を通じて,360億のトレーニング可能なパラメータを持つ驚くべきモデルを開発し,argus-3dという,これまでで最大の3次元形状生成モデルとして確立した。
提案手法は,生成した3次元形状の品質と多様性を高めることで,既存の手法の限界に対処する。
高分解能3次元形状生成の課題に取り組むため,三平面特徴を潜在表現として取り入れ,計算複雑性を効果的に低減した。
さらに,これらの表現の効率的な量子化のための離散コードブックも紹介する。
変圧器のパワーを活用することで,マルチモーダル条件生成を可能にし,多様で視覚的に印象的な3d形状の生成を容易にする。
拡張モデルをトレーニングするために、ModelNet40、ShapeNet、Pix3D、3D-Future、Objaverseといった有名なリポジトリから約90,000オブジェクトの包括的なコレクションで構成された、公開可能な3Dデータセットの集合を利用する。
この多様なデータセットは、我々のモデルに幅広い種類のオブジェクトから学習する権限を与え、高品質で多様な3D形状を生成する能力を高めます。
広範な実験により, 生成した3次元形状の視覚的品質を著しく向上させる効果が示された。
3次元生成の限界を押し進め、潜在表現学習のための新しい手法を導入し、マルチモーダル条件生成にトランスフォーマーのパワーを活用することで、この分野における実質的な進歩への道を開いた。
私たちの仕事は、高品質で多様な3Dオブジェクトを必要とするゲーム、バーチャルリアリティ、製品デザイン、その他の分野のアプリケーションに新たな可能性を開く。
関連論文リスト
- 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。
提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文 参考訳(メタデータ) (2024-03-14T14:31:22Z) - Pushing Auto-regressive Models for 3D Shape Generation at Capacity and
Scalability [121.44324465222498]
自己回帰モデルでは,格子空間における関節分布をモデル化することにより,2次元画像生成において顕著な結果が得られた。
自動回帰モデルを3次元領域に拡張し,キャパシティとスケーラビリティを同時に向上することにより,3次元形状生成の強力な能力を求める。
論文 参考訳(メタデータ) (2024-02-19T15:33:09Z) - Large-Vocabulary 3D Diffusion Model with Transformer [57.076986347047]
本稿では,1つの生成モデルを用いて実世界の3Dオブジェクトの大規模カテゴリを合成するための拡散型フィードフォワードフレームワークを提案する。
本稿では,三面体を用いた3次元拡散モデル(TransFormer, DiffTF)を提案する。
ShapeNetとOmniObject3Dの実験は、単一のDiffTFモデルが最先端の大語彙3Dオブジェクト生成性能を達成することを確実に実証している。
論文 参考訳(メタデータ) (2023-09-14T17:59:53Z) - Learning Versatile 3D Shape Generation with Improved AR Models [91.87115744375052]
自己回帰(AR)モデルはグリッド空間の関節分布をモデル化することにより2次元画像生成において印象的な結果を得た。
本稿では3次元形状生成のための改良された自己回帰モデル(ImAM)を提案する。
論文 参考訳(メタデータ) (2023-03-26T12:03:18Z) - 3D-LDM: Neural Implicit 3D Shape Generation with Latent Diffusion Models [8.583859530633417]
自動復号器の潜時空間で動作する3次元形状のニューラル暗黙表現のための拡散モデルを提案する。
これにより、多種多様な高品質な3D表面を生成できます。
論文 参考訳(メタデータ) (2022-12-01T20:00:00Z) - 3D Neural Field Generation using Triplane Diffusion [37.46688195622667]
ニューラルネットワークの3次元認識のための効率的な拡散ベースモデルを提案する。
当社のアプローチでは,ShapeNetメッシュなどのトレーニングデータを,連続的占有フィールドに変換することによって前処理する。
本論文では,ShapeNetのオブジェクトクラスにおける3D生成の現状について述べる。
論文 参考訳(メタデータ) (2022-11-30T01:55:52Z) - Deep Generative Models on 3D Representations: A Survey [81.73385191402419]
生成モデルは、新しいインスタンスを生成することによって観測データの分布を学習することを目的としている。
最近、研究者は焦点を2Dから3Dにシフトし始めた。
3Dデータの表現は、非常に大きな課題をもたらします。
論文 参考訳(メタデータ) (2022-10-27T17:59:50Z) - Learning to Generate 3D Shapes from a Single Example [28.707149807472685]
本稿では,入力形状の幾何学的特徴を空間的範囲にわたって捉えるために,マルチスケールのGANモデルを提案する。
我々は、外部の監督や手動のアノテーションを必要とせずに、基準形状のボクセルピラミッドで生成モデルを訓練する。
結果の形状は異なるスケールで変化を示し、同時に基準形状のグローバルな構造を保持する。
論文 参考訳(メタデータ) (2022-08-05T01:05:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。