論文の概要: OctGPT: Octree-based Multiscale Autoregressive Models for 3D Shape Generation
- arxiv url: http://arxiv.org/abs/2504.09975v1
- Date: Mon, 14 Apr 2025 08:31:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:49:46.788913
- Title: OctGPT: Octree-based Multiscale Autoregressive Models for 3D Shape Generation
- Title(参考訳): OctGPT:3次元形状生成のためのOctree-based Multiscale Autoregressive Model
- Authors: Si-Tong Wei, Rui-Huan Wang, Chuan-Zhi Zhou, Baoquan Chen, Peng-Shuai Wang,
- Abstract要約: OctGPTは3次元形状生成のための新しいマルチスケール自己回帰モデルである。
従来の3D自動回帰手法の効率と性能を劇的に向上させる。
OctGPTは、テキスト、スケッチ、イメージコンディショナリ生成など、さまざまなタスクにまたがる優れた汎用性を示している。
- 参考スコア(独自算出の注目度): 24.980804600194062
- License:
- Abstract: Autoregressive models have achieved remarkable success across various domains, yet their performance in 3D shape generation lags significantly behind that of diffusion models. In this paper, we introduce OctGPT, a novel multiscale autoregressive model for 3D shape generation that dramatically improves the efficiency and performance of prior 3D autoregressive approaches, while rivaling or surpassing state-of-the-art diffusion models. Our method employs a serialized octree representation to efficiently capture the hierarchical and spatial structures of 3D shapes. Coarse geometry is encoded via octree structures, while fine-grained details are represented by binary tokens generated using a vector quantized variational autoencoder (VQVAE), transforming 3D shapes into compact \emph{multiscale binary sequences} suitable for autoregressive prediction. To address the computational challenges of handling long sequences, we incorporate octree-based transformers enhanced with 3D rotary positional encodings, scale-specific embeddings, and token-parallel generation schemes. These innovations reduce training time by 13 folds and generation time by 69 folds, enabling the efficient training of high-resolution 3D shapes, e.g.,$1024^3$, on just four NVIDIA 4090 GPUs only within days. OctGPT showcases exceptional versatility across various tasks, including text-, sketch-, and image-conditioned generation, as well as scene-level synthesis involving multiple objects. Extensive experiments demonstrate that OctGPT accelerates convergence and improves generation quality over prior autoregressive methods, offering a new paradigm for high-quality, scalable 3D content creation.
- Abstract(参考訳): 自己回帰モデルは様々な領域で顕著な成功を収めてきたが、3次元形状生成ラグの性能は拡散モデルよりも著しく遅れている。
本稿では,従来の3次元自己回帰手法の効率と性能を劇的に向上させつつ,最先端の拡散モデルに匹敵する,新しい3次元形状生成のためのマルチスケール自己回帰モデルであるOctoGPTを紹介する。
本手法では, 3次元形状の階層構造と空間構造を効率的に捉えるために, 直列化オクツリー表現を用いる。
粗い幾何学はオクツリー構造を介して符号化されるが、微細な詳細はベクトル量子化変分オートエンコーダ(VQVAE)を用いて生成されたバイナリトークンで表現され、3次元形状を自己回帰予測に適したコンパクトな \emph{multiscale binary sequences} に変換する。
長列処理の計算課題に対処するため,3次元回転位置符号化,スケール固有埋め込み,トークン並列生成方式を改良したオクツリー変換器を組み込んだ。
これらのイノベーションは、トレーニング時間を13倍に、生成時間を69倍に短縮し、わずか4つのNVIDIA 4090 GPU上で、高解像度の3D形状(例えば、$1024^3$)の効率的なトレーニングを可能にする。
OctGPTは、テキスト、スケッチ、画像条件付き生成、および複数のオブジェクトを含むシーンレベルの合成など、様々なタスクにおいて、例外的な汎用性を示す。
大規模な実験により、OctGPTはコンバージェンスを加速し、従来の自己回帰法よりも生成品質を向上させることが示され、高品質でスケーラブルな3Dコンテンツ作成のための新しいパラダイムを提供する。
関連論文リスト
- Structured 3D Latents for Scalable and Versatile 3D Generation [28.672494137267837]
汎用的で高品質な3Dアセット作成のための新しい3D生成手法を提案する。
基本となるのは、異なる出力フォーマットへのデコードを可能にする、構造化されたLATent表現である。
これは、疎人口の少ない3Dグリッドと、強力な視覚基盤モデルから抽出された濃密な多視点視覚特徴を統合することで実現される。
論文 参考訳(メタデータ) (2024-12-02T13:58:38Z) - 3D-WAG: Hierarchical Wavelet-Guided Autoregressive Generation for High-Fidelity 3D Shapes [20.675695749508353]
本研究では,非条件形状生成が可能な3次元暗黙距離場のためのARモデルである3D-WAGを紹介する。
3次元AR生成タスクを次のスケールの予測として再定義することにより、生成の計算コストを削減できる。
以上の結果から,3D-WAGはCoverageやMDといった重要な指標において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-11-28T10:33:01Z) - G3PT: Unleash the power of Autoregressive Modeling in 3D Generation via Cross-scale Querying Transformer [4.221298212125194]
本稿では,大規模クエリ変換器を用いたスケーラブルな粗粒度3次元生成モデルであるG3PTを紹介する。
大規模クエリ変換器は、順序づけられたシーケンスを必要とせずに、さまざまな詳細レベルのトークンをグローバルに接続する。
実験により、G3PTは従来の3次元生成法に比べて優れた生成品質と一般化能力が得られることが示された。
論文 参考訳(メタデータ) (2024-09-10T08:27:19Z) - VividDreamer: Towards High-Fidelity and Efficient Text-to-3D Generation [69.68568248073747]
拡散に基づく3次元生成タスクにおいて, ポーズ依存型連続蒸留サンプリング (PCDS) を提案する。
PCDSは拡散軌道内でポーズ依存整合関数を構築し、最小サンプリングステップで真の勾配を近似することができる。
そこで我々は,まず1ステップのPCDSを用いて3Dオブジェクトの基本構造を作成し,さらに徐々にPCDSのステップを拡大して細かな細部を生成する,粗大な最適化手法を提案する。
論文 参考訳(メタデータ) (2024-06-21T08:21:52Z) - MeshXL: Neural Coordinate Field for Generative 3D Foundation Models [51.1972329762843]
本稿では,現代の大規模言語モデルを用いた3次元メッシュ生成のプロセスに対処する,事前学習型自己回帰モデルの生成ファミリを提案する。
MeshXLは高品質な3Dメッシュを生成することができ、さまざまなダウンストリームアプリケーションの基盤モデルとしても機能する。
論文 参考訳(メタデータ) (2024-05-31T14:35:35Z) - DiffTF++: 3D-aware Diffusion Transformer for Large-Vocabulary 3D Generation [53.20147419879056]
拡散型フィードフォワードフレームワークを導入し,単一モデルで課題に対処する。
TransFormerを用いた3D対応拡散モデルを構築し,より強力な3D生成,すなわちDiffTF++を提案する。
ShapeNetとOmniObject3Dの実験は、提案したモジュールの有効性を確実に実証している。
論文 参考訳(メタデータ) (2024-05-13T17:59:51Z) - LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation [73.36690511083894]
本稿では,LN3Diffと呼ばれる新しいフレームワークを導入し,統一された3次元拡散パイプラインに対処する。
提案手法では,3次元アーキテクチャと変分オートエンコーダを用いて,入力画像を構造化されたコンパクトな3次元潜在空間に符号化する。
3次元生成のためのShapeNetの最先端性能を実現し,モノクロ3次元再構成と条件付き3次元生成において優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-18T17:54:34Z) - Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability [118.26563926533517]
自己回帰モデルでは,格子空間における関節分布をモデル化することにより,2次元画像生成において顕著な結果が得られた。
自動回帰モデルを3次元領域に拡張し,キャパシティとスケーラビリティを同時に向上することにより,3次元形状生成の強力な能力を求める。
論文 参考訳(メタデータ) (2024-02-19T15:33:09Z) - Pushing the Limits of 3D Shape Generation at Scale [65.24420181727615]
我々は、前例のない次元に拡大することで、3次元形状生成において画期的なブレークスルーを示す。
現在までに最大の3次元形状生成モデルとしてArgus-3Dが確立されている。
論文 参考訳(メタデータ) (2023-06-20T13:01:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。