論文の概要: Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability
- arxiv url: http://arxiv.org/abs/2402.12225v2
- Date: Tue, 26 Mar 2024 15:06:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 21:53:51.130403
- Title: Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability
- Title(参考訳): キャパシティとスケーラビリティを考慮した3次元形状生成のための自己回帰モデル
- Authors: Xuelin Qian, Yu Wang, Simian Luo, Yinda Zhang, Ying Tai, Zhenyu Zhang, Chengjie Wang, Xiangyang Xue, Bo Zhao, Tiejun Huang, Yunsheng Wu, Yanwei Fu,
- Abstract要約: 自己回帰モデルでは,格子空間における関節分布をモデル化することにより,2次元画像生成において顕著な結果が得られた。
自動回帰モデルを3次元領域に拡張し,キャパシティとスケーラビリティを同時に向上することにより,3次元形状生成の強力な能力を求める。
- 参考スコア(独自算出の注目度): 118.26563926533517
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Auto-regressive models have achieved impressive results in 2D image generation by modeling joint distributions in grid space. In this paper, we extend auto-regressive models to 3D domains, and seek a stronger ability of 3D shape generation by improving auto-regressive models at capacity and scalability simultaneously. Firstly, we leverage an ensemble of publicly available 3D datasets to facilitate the training of large-scale models. It consists of a comprehensive collection of approximately 900,000 objects, with multiple properties of meshes, points, voxels, rendered images, and text captions. This diverse labeled dataset, termed Objaverse-Mix, empowers our model to learn from a wide range of object variations. However, directly applying 3D auto-regression encounters critical challenges of high computational demands on volumetric grids and ambiguous auto-regressive order along grid dimensions, resulting in inferior quality of 3D shapes. To this end, we then present a novel framework Argus3D in terms of capacity. Concretely, our approach introduces discrete representation learning based on a latent vector instead of volumetric grids, which not only reduces computational costs but also preserves essential geometric details by learning the joint distributions in a more tractable order. The capacity of conditional generation can thus be realized by simply concatenating various conditioning inputs to the latent vector, such as point clouds, categories, images, and texts. In addition, thanks to the simplicity of our model architecture, we naturally scale up our approach to a larger model with an impressive 3.6 billion parameters, further enhancing the quality of versatile 3D generation. Extensive experiments on four generation tasks demonstrate that Argus3D can synthesize diverse and faithful shapes across multiple categories, achieving remarkable performance.
- Abstract(参考訳): 自己回帰モデルでは,格子空間の関節分布をモデル化することにより,2次元画像生成において顕著な結果が得られた。
本稿では, 自動回帰モデルを3次元領域に拡張し, キャパシティとスケーラビリティを同時に向上させることにより, 3次元形状生成の強力な能力を求める。
まず、利用可能な3Dデータセットのアンサンブルを活用して、大規模モデルのトレーニングを容易にする。
約90,000のオブジェクトからなる包括的なコレクションで構成され、メッシュ、ポイント、ボクセル、レンダリング画像、テキストキャプションの複数の特性を持つ。
この多彩なラベル付きデータセットは、Objaverse-Mixと呼ばれ、幅広いオブジェクトのバリエーションから学習するためのモデルを可能にします。
しかし、3次元自己回帰を直接適用することは、体積格子に対する高い計算要求とグリッド次元に沿ったあいまいな自己回帰順序という重要な課題に遭遇し、3次元形状の質は劣る。
この目的のために、キャパシティの観点から、新しいフレームワークArgus3Dを提示する。
具体的には,体積格子の代わりに潜在ベクトルに基づく離散表現学習を導入し,計算コストを削減できるだけでなく,よりトラクタブルな順序で関節分布を学習することで,重要な幾何学的詳細を保っている。
これにより、点雲、カテゴリ、画像、テキストなど、様々な条件入力を潜在ベクトルに簡単に結合することで、条件生成の能力を実現することができる。
さらに、モデルアーキテクチャの単純さのおかげで、我々は自然に36億のパラメータを持つ大きなモデルにアプローチを拡大し、多目的な3D生成の品質をさらに向上させます。
4つの世代タスクに関する大規模な実験により、Argus3Dは様々なカテゴリにまたがる多様で忠実な形状を合成でき、優れた性能を達成できることを示した。
関連論文リスト
- ComboVerse: Compositional 3D Assets Creation Using Spatially-Aware Diffusion Guidance [76.7746870349809]
複雑な構成で高品質な3Dアセットを生成する3D生成フレームワークであるComboVerseについて,複数のモデルを組み合わせることを学習して紹介する。
提案手法は,標準スコア蒸留法と比較して,物体の空間的アライメントを重視している。
論文 参考訳(メタデータ) (2024-03-19T03:39:43Z) - Breathing New Life into 3D Assets with Generative Repainting [74.80184575267106]
拡散ベースのテキスト・ツー・イメージ・モデルは、ビジョン・コミュニティ、アーティスト、コンテンツ・クリエーターから大きな注目を集めた。
近年の研究では、拡散モデルとニューラルネットワークの絡み合いを利用した様々なパイプラインが提案されている。
予備訓練された2次元拡散モデルと標準3次元ニューラルラジアンスフィールドのパワーを独立したスタンドアロンツールとして検討する。
我々のパイプラインはテクスチャ化されたメッシュや無テクスチャのメッシュのような、レガシなレンダリング可能な幾何学を受け入れ、2D生成の洗練と3D整合性強化ツール間の相互作用をオーケストレーションします。
論文 参考訳(メタデータ) (2023-09-15T16:34:51Z) - Large-Vocabulary 3D Diffusion Model with Transformer [57.076986347047]
本稿では,1つの生成モデルを用いて実世界の3Dオブジェクトの大規模カテゴリを合成するための拡散型フィードフォワードフレームワークを提案する。
本稿では,三面体を用いた3次元拡散モデル(TransFormer, DiffTF)を提案する。
ShapeNetとOmniObject3Dの実験は、単一のDiffTFモデルが最先端の大語彙3Dオブジェクト生成性能を達成することを確実に実証している。
論文 参考訳(メタデータ) (2023-09-14T17:59:53Z) - Pushing the Limits of 3D Shape Generation at Scale [65.24420181727615]
我々は、前例のない次元に拡大することで、3次元形状生成において画期的なブレークスルーを示す。
現在までに最大の3次元形状生成モデルとしてArgus-3Dが確立されている。
論文 参考訳(メタデータ) (2023-06-20T13:01:19Z) - Few-shot 3D Shape Generation [18.532357455856836]
本研究では,大領域で事前学習した生成モデルを限定データを用いて対象領域に適応させることにより,少数の3次元形状生成を実現するための最初の試みを行う。
提案手法では,ターゲット形状分布を学習するためのトレーニングデータとして,数発のターゲットサンプルのシルエットしか必要としない。
論文 参考訳(メタデータ) (2023-05-19T13:30:10Z) - Learning Versatile 3D Shape Generation with Improved AR Models [91.87115744375052]
自己回帰(AR)モデルはグリッド空間の関節分布をモデル化することにより2次元画像生成において印象的な結果を得た。
本稿では3次元形状生成のための改良された自己回帰モデル(ImAM)を提案する。
論文 参考訳(メタデータ) (2023-03-26T12:03:18Z) - Learning to Generate 3D Shapes from a Single Example [28.707149807472685]
本稿では,入力形状の幾何学的特徴を空間的範囲にわたって捉えるために,マルチスケールのGANモデルを提案する。
我々は、外部の監督や手動のアノテーションを必要とせずに、基準形状のボクセルピラミッドで生成モデルを訓練する。
結果の形状は異なるスケールで変化を示し、同時に基準形状のグローバルな構造を保持する。
論文 参考訳(メタデータ) (2022-08-05T01:05:32Z) - GLASS: Geometric Latent Augmentation for Shape Spaces [28.533018136138825]
幾何学的に動機づけられたエネルギーを用いて拡張し、その結果、サンプル(トレーニング)モデルのスパースコレクションを増強する。
本研究では,高剛性(ARAP)エネルギーのヘシアン解析を行い,その基礎となる(局所)形状空間に投射する。
我々は,3~10個のトレーニング形状から始めても,興味深い,意味のある形状変化の例をいくつか提示する。
論文 参考訳(メタデータ) (2021-08-06T17:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。