Fugu-MT 論文翻訳(概要): OctGPT: Octree-based Multiscale Autoregressive Models for 3D Shape Generation

論文の概要: OctGPT: Octree-based Multiscale Autoregressive Models for 3D Shape Generation

arxiv url: http://arxiv.org/abs/2504.09975v1
Date: Mon, 14 Apr 2025 08:31:26 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-22 22:48:52.133143
Title: OctGPT: Octree-based Multiscale Autoregressive Models for 3D Shape Generation
Title（参考訳）: OctGPT:3次元形状生成のためのOctree-based Multiscale Autoregressive Model
Authors: Si-Tong Wei, Rui-Huan Wang, Chuan-Zhi Zhou, Baoquan Chen, Peng-Shuai Wang,
Abstract要約: OctGPTは3次元形状生成のための新しいマルチスケール自己回帰モデルである。従来の3D自動回帰手法の効率と性能を劇的に向上させる。 OctGPTは、テキスト、スケッチ、イメージコンディショナリ生成など、さまざまなタスクにまたがる優れた汎用性を示している。
参考スコア（独自算出の注目度）: 24.980804600194062
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Autoregressive models have achieved remarkable success across various domains, yet their performance in 3D shape generation lags significantly behind that of diffusion models. In this paper, we introduce OctGPT, a novel multiscale autoregressive model for 3D shape generation that dramatically improves the efficiency and performance of prior 3D autoregressive approaches, while rivaling or surpassing state-of-the-art diffusion models. Our method employs a serialized octree representation to efficiently capture the hierarchical and spatial structures of 3D shapes. Coarse geometry is encoded via octree structures, while fine-grained details are represented by binary tokens generated using a vector quantized variational autoencoder (VQVAE), transforming 3D shapes into compact \emph{multiscale binary sequences} suitable for autoregressive prediction. To address the computational challenges of handling long sequences, we incorporate octree-based transformers enhanced with 3D rotary positional encodings, scale-specific embeddings, and token-parallel generation schemes. These innovations reduce training time by 13 folds and generation time by 69 folds, enabling the efficient training of high-resolution 3D shapes, e.g.,$1024^3$, on just four NVIDIA 4090 GPUs only within days. OctGPT showcases exceptional versatility across various tasks, including text-, sketch-, and image-conditioned generation, as well as scene-level synthesis involving multiple objects. Extensive experiments demonstrate that OctGPT accelerates convergence and improves generation quality over prior autoregressive methods, offering a new paradigm for high-quality, scalable 3D content creation.
Abstract（参考訳）: 自己回帰モデルは様々な領域で顕著な成功を収めてきたが、3次元形状生成ラグの性能は拡散モデルよりも著しく遅れている。本稿では,従来の3次元自己回帰手法の効率と性能を劇的に向上させつつ,最先端の拡散モデルに匹敵する,新しい3次元形状生成のためのマルチスケール自己回帰モデルであるOctoGPTを紹介する。本手法では, 3次元形状の階層構造と空間構造を効率的に捉えるために, 直列化オクツリー表現を用いる。粗い幾何学はオクツリー構造を介して符号化されるが、微細な詳細はベクトル量子化変分オートエンコーダ(VQVAE)を用いて生成されたバイナリトークンで表現され、3次元形状を自己回帰予測に適したコンパクトな \emph{multiscale binary sequences} に変換する。長列処理の計算課題に対処するため,3次元回転位置符号化,スケール固有埋め込み,トークン並列生成方式を改良したオクツリー変換器を組み込んだ。これらのイノベーションは、トレーニング時間を13倍に、生成時間を69倍に短縮し、わずか4つのNVIDIA 4090 GPU上で、高解像度の3D形状(例えば、$1024^3$)の効率的なトレーニングを可能にする。 OctGPTは、テキスト、スケッチ、画像条件付き生成、および複数のオブジェクトを含むシーンレベルの合成など、様々なタスクにおいて、例外的な汎用性を示す。大規模な実験により、OctGPTはコンバージェンスを加速し、従来の自己回帰法よりも生成品質を向上させることが示され、高品質でスケーラブルな3Dコンテンツ作成のための新しいパラダイムを提供する。

関連論文リスト

Efficient Autoregressive Shape Generation via Octree-Based Adaptive Tokenization [68.07464514094299]
既存の方法では、すべての形状を固定サイズのトークンにエンコードし、3Dデータにまたがるスケールと複雑さの固有のバリエーションを無視している。形状の複雑さに応じて潜在表現の次元を調節する新しいフレームワークであるOctoreeをベースとした適応トークン化を提案する。当社の手法では,同等の視覚的品質を維持しながら,固定サイズの手法に比べてトークン数を50%削減する。
論文参考訳（メタデータ） (2025-04-03T17:57:52Z)
Unified Cross-Scale 3D Generation and Understanding via Autoregressive Modeling [32.45851798752336]
クロススケールな3D生成と理解のための統合自己回帰フレームワークUni-3DARを提案する。コアとなるのはオクツリーデータ構造に基づく粗大なトークンライザで、多様な3D構造をコンパクトな1Dトークンシーケンスに圧縮する。圧縮によって引き起こされる動的に異なるトークン位置の課題に対処するために,マスク付き次世代予測戦略を導入する。
論文参考訳（メタデータ） (2025-03-20T16:07:04Z)
Structured 3D Latents for Scalable and Versatile 3D Generation [28.672494137267837]
汎用的で高品質な3Dアセット作成のための新しい3D生成手法を提案する。基本となるのは、異なる出力フォーマットへのデコードを可能にする、構造化されたLATent表現である。これは、疎人口の少ない3Dグリッドと、強力な視覚基盤モデルから抽出された濃密な多視点視覚特徴を統合することで実現される。
論文参考訳（メタデータ） (2024-12-02T13:58:38Z)
3D-WAG: Hierarchical Wavelet-Guided Autoregressive Generation for High-Fidelity 3D Shapes [20.675695749508353]
本研究では,非条件形状生成が可能な3次元暗黙距離場のためのARモデルである3D-WAGを紹介する。 3次元AR生成タスクを次のスケールの予測として再定義することにより、生成の計算コストを削減できる。以上の結果から,3D-WAGはCoverageやMDといった重要な指標において優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-11-28T10:33:01Z)
G3PT: Unleash the power of Autoregressive Modeling in 3D Generation via Cross-scale Querying Transformer [4.221298212125194]
本稿では,大規模クエリ変換器を用いたスケーラブルな粗粒度3次元生成モデルであるG3PTを紹介する。大規模クエリ変換器は、順序づけられたシーケンスを必要とせずに、さまざまな詳細レベルのトークンをグローバルに接続する。実験により、G3PTは従来の3次元生成法に比べて優れた生成品質と一般化能力が得られることが示された。
論文参考訳（メタデータ） (2024-09-10T08:27:19Z)
MeshXL: Neural Coordinate Field for Generative 3D Foundation Models [51.1972329762843]
本稿では,現代の大規模言語モデルを用いた3次元メッシュ生成のプロセスに対処する,事前学習型自己回帰モデルの生成ファミリを提案する。 MeshXLは高品質な3Dメッシュを生成することができ、さまざまなダウンストリームアプリケーションの基盤モデルとしても機能する。
論文参考訳（メタデータ） (2024-05-31T14:35:35Z)
DiffTF++: 3D-aware Diffusion Transformer for Large-Vocabulary 3D Generation [53.20147419879056]
拡散型フィードフォワードフレームワークを導入し,単一モデルで課題に対処する。 TransFormerを用いた3D対応拡散モデルを構築し,より強力な3D生成,すなわちDiffTF++を提案する。 ShapeNetとOmniObject3Dの実験は、提案したモジュールの有効性を確実に実証している。
論文参考訳（メタデータ） (2024-05-13T17:59:51Z)
LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation [73.36690511083894]
本稿では,LN3Diffと呼ばれる新しいフレームワークを導入し,統一された3次元拡散パイプラインに対処する。提案手法では,3次元アーキテクチャと変分オートエンコーダを用いて,入力画像を構造化されたコンパクトな3次元潜在空間に符号化する。 3次元生成のためのShapeNetの最先端性能を実現し,モノクロ3次元再構成と条件付き3次元生成において優れた性能を示す。
論文参考訳（メタデータ） (2024-03-18T17:54:34Z)
Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability [118.26563926533517]
自己回帰モデルでは,格子空間における関節分布をモデル化することにより,2次元画像生成において顕著な結果が得られた。自動回帰モデルを3次元領域に拡張し,キャパシティとスケーラビリティを同時に向上することにより,3次元形状生成の強力な能力を求める。
論文参考訳（メタデータ） (2024-02-19T15:33:09Z)
Make-A-Shape: a Ten-Million-scale 3D Shape Model [52.701745578415796]
本稿では,大規模な効率的なトレーニングを目的とした新しい3次元生成モデルであるMake-A-Shapeを紹介する。まずウェーブレットツリー表現を革新し、サブバンド係数フィルタリングスキームを定式化して形状をコンパクトに符号化する。我々は、粗いウェーブレット係数の生成を効果的に学習するために、我々のモデルを訓練するためのサブバンド適応型トレーニング戦略を導出する。
論文参考訳（メタデータ） (2024-01-20T00:21:58Z)
Dual Octree Graph Networks for Learning Adaptive Volumetric Shape Representations [21.59311861556396]
本手法は,3次元形状の体積場を,オクツリーによって構成された適応的特徴量で符号化する。エンコーダ・デコーダネットワークは、オクツリーノードの二重グラフ上のグラフ畳み込みに基づいて、適応的な特徴量を学ぶように設計されている。提案手法は, 形状詳細を効果的に符号化し, 高速な3次元形状復元を可能にし, 訓練カテゴリから3次元形状をモデル化するための優れた汎用性を示す。
論文参考訳（メタデータ） (2022-05-05T17:56:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。