論文の概要: 3D-WAG: Hierarchical Wavelet-Guided Autoregressive Generation for High-Fidelity 3D Shapes
- arxiv url: http://arxiv.org/abs/2411.19037v1
- Date: Thu, 28 Nov 2024 10:33:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:20:14.470864
- Title: 3D-WAG: Hierarchical Wavelet-Guided Autoregressive Generation for High-Fidelity 3D Shapes
- Title(参考訳): 3D-WAG:高忠実な3次元形状のための階層型ウェーブレット誘導自己回帰生成
- Authors: Tejaswini Medi, Arianna Rampini, Pradyumna Reddy, Pradeep Kumar Jayaraman, Margret Keuper,
- Abstract要約: 本研究では,非条件形状生成が可能な3次元暗黙距離場のためのARモデルである3D-WAGを紹介する。
3次元AR生成タスクを次のスケールの予測として再定義することにより、生成の計算コストを削減できる。
以上の結果から,3D-WAGはCoverageやMDといった重要な指標において優れた性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 20.675695749508353
- License:
- Abstract: Autoregressive (AR) models have achieved remarkable success in natural language and image generation, but their application to 3D shape modeling remains largely unexplored. Unlike diffusion models, AR models enable more efficient and controllable generation with faster inference times, making them especially suitable for data-intensive domains. Traditional 3D generative models using AR approaches often rely on ``next-token" predictions at the voxel or point level. While effective for certain applications, these methods can be restrictive and computationally expensive when dealing with large-scale 3D data. To tackle these challenges, we introduce 3D-WAG, an AR model for 3D implicit distance fields that can perform unconditional shape generation, class-conditioned and also text-conditioned shape generation. Our key idea is to encode shapes as multi-scale wavelet token maps and use a Transformer to predict the ``next higher-resolution token map" in an autoregressive manner. By redefining 3D AR generation task as ``next-scale" prediction, we reduce the computational cost of generation compared to traditional ``next-token" prediction models, while preserving essential geometric details of 3D shapes in a more structured and hierarchical manner. We evaluate 3D-WAG to showcase its benefit by quantitative and qualitative comparisons with state-of-the-art methods on widely used benchmarks. Our results show 3D-WAG achieves superior performance in key metrics like Coverage and MMD, generating high-fidelity 3D shapes that closely match the real data distribution.
- Abstract(参考訳): 自己回帰モデル(AR)は自然言語や画像生成において顕著な成功を収めてきたが、3次元形状モデリングへの応用はいまだに未解明のままである。
拡散モデルとは異なり、ARモデルは高速な推論時間でより効率的で制御可能な生成を可能にし、特にデータ集約ドメインに適している。
従来の3D生成モデルは、ボクセルやポイントレベルでの「next-token」予測に頼っていることが多いが、大規模な3Dデータを扱う場合、これらの手法は制限的かつ計算的に高価である。これらの課題に対処するために、非条件形状の生成、クラス条件付きおよびテキスト条件付き形状生成が可能な3D暗黙距離フィールド用のARモデルである3D-WAGを導入する。我々は、マルチスケールのウェーブレットトークンマップとして形状をエンコードし、トランスフォーマーを用いて「next High- Resolution token map」を自動回帰的に予測する。
従来の「next-token」予測モデルと比較して、3次元AR生成タスクを「next-scale」予測として再定義することにより、より構造化された階層的な方法で3次元形状の基本的な幾何学的詳細を保存しつつ、生成の計算コストを削減できる。
我々は3D-WAGを評価し、その利点を、広く使われているベンチマークの最先端手法と定量的かつ質的な比較によって示す。
その結果、3D-WAGはCoverageやMDDのような重要な指標において優れた性能を示し、実際のデータ分布と密に一致した高忠実な3D形状を生成する。
関連論文リスト
- G3PT: Unleash the power of Autoregressive Modeling in 3D Generation via Cross-scale Querying Transformer [4.221298212125194]
本稿では,大規模クエリ変換器を用いたスケーラブルな粗粒度3次元生成モデルであるG3PTを紹介する。
大規模クエリ変換器は、順序づけられたシーケンスを必要とせずに、さまざまな詳細レベルのトークンをグローバルに接続する。
実験により、G3PTは従来の3次元生成法に比べて優れた生成品質と一般化能力が得られることが示された。
論文 参考訳(メタデータ) (2024-09-10T08:27:19Z) - DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - MeshXL: Neural Coordinate Field for Generative 3D Foundation Models [51.1972329762843]
本稿では,現代の大規模言語モデルを用いた3次元メッシュ生成のプロセスに対処する,事前学習型自己回帰モデルの生成ファミリを提案する。
MeshXLは高品質な3Dメッシュを生成することができ、さまざまなダウンストリームアプリケーションの基盤モデルとしても機能する。
論文 参考訳(メタデータ) (2024-05-31T14:35:35Z) - LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation [73.36690511083894]
本稿では,LN3Diffと呼ばれる新しいフレームワークを導入し,統一された3次元拡散パイプラインに対処する。
提案手法では,3次元アーキテクチャと変分オートエンコーダを用いて,入力画像を構造化されたコンパクトな3次元潜在空間に符号化する。
3次元生成のためのShapeNetの最先端性能を実現し,モノクロ3次元再構成と条件付き3次元生成において優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-18T17:54:34Z) - Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability [118.26563926533517]
自己回帰モデルでは,格子空間における関節分布をモデル化することにより,2次元画像生成において顕著な結果が得られた。
自動回帰モデルを3次元領域に拡張し,キャパシティとスケーラビリティを同時に向上することにより,3次元形状生成の強力な能力を求める。
論文 参考訳(メタデータ) (2024-02-19T15:33:09Z) - Learning Versatile 3D Shape Generation with Improved AR Models [91.87115744375052]
自己回帰(AR)モデルはグリッド空間の関節分布をモデル化することにより2次元画像生成において印象的な結果を得た。
本稿では3次元形状生成のための改良された自己回帰モデル(ImAM)を提案する。
論文 参考訳(メタデータ) (2023-03-26T12:03:18Z) - NeRF-GAN Distillation for Efficient 3D-Aware Generation with
Convolutions [97.27105725738016]
GAN(Generative Adversarial Networks)のようなニューラルラジアンスフィールド(NeRF)と生成モデルの統合は、単一ビュー画像から3D認識生成を変換した。
提案手法は,ポーズ条件付き畳み込みネットワークにおいて,事前学習したNeRF-GANの有界遅延空間を再利用し,基礎となる3次元表現に対応する3D一貫性画像を直接生成する手法である。
論文 参考訳(メタデータ) (2023-03-22T18:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。