論文の概要: Wavelet Latent Diffusion (Wala): Billion-Parameter 3D Generative Model with Compact Wavelet Encodings
- arxiv url: http://arxiv.org/abs/2411.08017v1
- Date: Tue, 12 Nov 2024 18:49:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:19:22.697931
- Title: Wavelet Latent Diffusion (Wala): Billion-Parameter 3D Generative Model with Compact Wavelet Encodings
- Title(参考訳): ウェーブレット遅延拡散(ワラ):コンパクトウェーブレット符号化による10億パラメータ3次元生成モデル
- Authors: Aditya Sanghi, Aliasghar Khani, Pradyumna Reddy, Arianna Rampini, Derek Cheung, Kamal Rahimi Malekshan, Kanika Madan, Hooman Shayani,
- Abstract要約: 大規模3次元生成モデルは計算資源を必要とするが、細部や複雑な地形を高解像度で捉えるには不足することが多い。
我々はウェーブレット遅延拡散(WaLa)と呼ばれる新しい手法を導入し、3次元形状をコンパクトな潜時符号化に符号化する。
具体的には、2563ドルの符号付き距離場を123倍の遅延格子に圧縮し、2427倍の圧縮比を達成した。
我々のモデルは条件付きと無条件の両方で、約10億のパラメータを含み、高品質な3D形状を2563$で生成することに成功した。
- 参考スコア(独自算出の注目度): 15.2983201224858
- License:
- Abstract: Large-scale 3D generative models require substantial computational resources yet often fall short in capturing fine details and complex geometries at high resolutions. We attribute this limitation to the inefficiency of current representations, which lack the compactness required to model the generative models effectively. To address this, we introduce a novel approach called Wavelet Latent Diffusion, or WaLa, that encodes 3D shapes into wavelet-based, compact latent encodings. Specifically, we compress a $256^3$ signed distance field into a $12^3 \times 4$ latent grid, achieving an impressive 2427x compression ratio with minimal loss of detail. This high level of compression allows our method to efficiently train large-scale generative networks without increasing the inference time. Our models, both conditional and unconditional, contain approximately one billion parameters and successfully generate high-quality 3D shapes at $256^3$ resolution. Moreover, WaLa offers rapid inference, producing shapes within two to four seconds depending on the condition, despite the model's scale. We demonstrate state-of-the-art performance across multiple datasets, with significant improvements in generation quality, diversity, and computational efficiency. We open-source our code and, to the best of our knowledge, release the largest pretrained 3D generative models across different modalities.
- Abstract(参考訳): 大規模3次元生成モデルは計算資源を必要とするが、細部や複雑な地形を高解像度で捉えるには不足することが多い。
この制限は、生成モデルを効果的にモデル化するために必要なコンパクトさが欠如している、現在の表現の非効率性に起因する。
そこで我々は,ウェーブレットをベースとしたコンパクトなレイトレント符号化に3次元形状を符号化するWavelet Latent Diffusion(WaLa)という新しい手法を提案する。
具体的には、256^3$符号付き距離場を12^3 \times 4$遅延格子に圧縮し、詳細の損失を最小限に抑えた2427x圧縮比を実現した。
この高レベルの圧縮により,提案手法は推論時間を増やすことなく,大規模生成ネットワークを効率的に学習することができる。
条件付きモデルと無条件モデルの両方に約10億のパラメータが含まれており、解像度256^3$で高品質な3D形状を生成することに成功した。
さらに、WaLaは高速な推論を提供し、モデルのサイズに関わらず、条件に応じて2秒から4秒以内に形状を生成する。
複数のデータセットにまたがる最先端のパフォーマンスを実証し、生成品質、多様性、計算効率を大幅に改善した。
私たちはコードをオープンソース化し、私たちの知る限り、さまざまなモダリティをまたいだ最大の事前訓練された3D生成モデルをリリースします。
関連論文リスト
- Compress3D: a Compressed Latent Space for 3D Generation from a Single Image [27.53099431097921]
トリプレーンオートエンコーダは3次元モデルをコンパクトな3次元ラテント空間に符号化し、3次元幾何情報とテクスチャ情報の両方を圧縮する。
本稿では,低解像度の潜在表現を用いて高解像度の3D特徴量から特徴を問合せする3D対応のクロスアテンション機構を提案する。
われわれのアプローチでは、1つのA100 GPU上で7秒で高品質な3Dアセットを生成できる。
論文 参考訳(メタデータ) (2024-03-20T11:51:04Z) - Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability [118.26563926533517]
自己回帰モデルでは,格子空間における関節分布をモデル化することにより,2次元画像生成において顕著な結果が得られた。
自動回帰モデルを3次元領域に拡張し,キャパシティとスケーラビリティを同時に向上することにより,3次元形状生成の強力な能力を求める。
論文 参考訳(メタデータ) (2024-02-19T15:33:09Z) - LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content
Creation [51.19871052619077]
テキストプロンプトやシングルビュー画像から高解像度の3Dモデルを生成するための新しいフレームワークであるLarge Multi-View Gaussian Model (LGM)を紹介する。
我々は,5秒以内に3Dオブジェクトを生成する高速な速度を維持しながら,トレーニング解像度を512に向上し,高解像度な3Dコンテンツ生成を実現する。
論文 参考訳(メタデータ) (2024-02-07T17:57:03Z) - Make-A-Shape: a Ten-Million-scale 3D Shape Model [52.701745578415796]
本稿では,大規模な効率的なトレーニングを目的とした新しい3次元生成モデルであるMake-A-Shapeを紹介する。
まずウェーブレットツリー表現を革新し、サブバンド係数フィルタリングスキームを定式化して形状をコンパクトに符号化する。
我々は、粗いウェーブレット係数の生成を効果的に学習するために、我々のモデルを訓練するためのサブバンド適応型トレーニング戦略を導出する。
論文 参考訳(メタデータ) (2024-01-20T00:21:58Z) - GVP: Generative Volumetric Primitives [76.95231302205235]
本稿では,512解像度画像をリアルタイムにサンプリング・レンダリングできる最初の純3次元生成モデルである生成ボリュームプリミティブ(GVP)を提案する。
GVPは、複数のプリミティブとその空間情報を共同でモデル化し、どちらも2D畳み込みネットワークを介して効率的に生成することができる。
いくつかのデータセットの実験は、最先端技術よりも優れた効率性とGVPの3次元一貫性を示す。
論文 参考訳(メタデータ) (2023-03-31T16:50:23Z) - HoloDiffusion: Training a 3D Diffusion Model using 2D Images [71.1144397510333]
我々は,2次元画像のみを監督のために配置した,エンドツーエンドでトレーニング可能な新しい拡散装置を導入する。
我々の拡散モデルはスケーラブルで、頑健に訓練されており、既存の3次元生成モデルへのアプローチに対して、サンプルの品質と忠実さの点で競争力があることを示す。
論文 参考訳(メタデータ) (2023-03-29T07:35:56Z) - Magic3D: High-Resolution Text-to-3D Content Creation [78.40092800817311]
DreamFusionは最近、NeRF(Neural Radiance Fields)を最適化するための事前訓練されたテキスト-画像拡散モデルの有用性を実証した。
本稿では,2段階最適化フレームワークを用いて,これらの制約に対処する。
Magic3Dと呼ばれる我々の手法は、DreamFusionより2倍高速な高品質な3Dメッシュモデルを40分で作成できる。
論文 参考訳(メタデータ) (2022-11-18T18:59:59Z) - not-so-BigGAN: Generating High-Fidelity Images on Small Compute with
Wavelet-based Super-Resolution [23.15896056344987]
Nsb-GANは、深層生成モデルのための簡易かつ費用対効果の2段階のトレーニングフレームワークである。
ウェーブレットに基づくダウンサンプリング法は、ピクセルベースの方法よりも多くの構造情報を保存する。
ImageNet 512x512では、10.59のFr'echet Inception Distance(FID)がベースラインのBigGANモデルを上回っている。
論文 参考訳(メタデータ) (2020-09-09T17:29:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。