論文の概要: SuperVoxelGPT: Adaptive and Ordered 3D Tokenization for Autoregressive Shape Generation
- arxiv url: http://arxiv.org/abs/2605.29655v1
- Date: Thu, 28 May 2026 09:17:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 05:02:24.570094
- Title: SuperVoxelGPT: Adaptive and Ordered 3D Tokenization for Autoregressive Shape Generation
- Title(参考訳): SuperVoxelGPT:自己回帰型形状生成のための適応および秩序化された3次元トークン化
- Authors: Yuan Li, Congyi Zhang, Xifeng Gao, Xiaohu Guo,
- Abstract要約: MLLM(Autoregressive Multimodal Large Language Model)は、3D生成を可能にするが、高解像度の形状にスケールするのに苦労する。
本稿では,適応性と決定的に順序付けられたスーパーボクセルトークン化により,このテンションを解消する表現ファーストフレームワークであるSuperVoxelGPTを提案する。
Trellis-500Kの実験により、スーパーボクセルGPTはトークンの配列の長さを12.8%まで短縮することが示された。
- 参考スコア(独自算出の注目度): 19.870933275184438
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive multimodal large language models (MLLMs) enable 3D generation but struggle to scale to high-resolution shapes due to inadequate 3D tokenizations. Compact set-based representations discard deterministic spatial ordering, leading to ambiguous sequence prediction, while uniform or octree-based voxel grids preserve ordering at the cost of severe redundancy and excessively long sequences. This structural trade-off limits stable and efficient autoregressive 3D generation. We present SuperVoxelGPT, a representation-first framework that resolves this tension through adaptive and deterministically ordered supervoxel tokenization. Given a prompt, we first predict a coarse geometric saliency distribution and construct a shape-adaptive supervoxel partition using saliency-guided centroidal Voronoi tessellation, allocating fine-grained cells to complex regions and larger cells to smooth regions. Conditioned on the text and ordered supervoxel layout, we introduce a SuperVoxelVAE and fine-tune a pretrained MLLM to autoregressively generate supervoxel tokens. Experiments on Trellis-500K show that SuperVoxelGPT reduces token sequence length to 12.8% of uniform voxel tokenization while achieving state-of-the-art generation quality and an average 10$\times$ speedup over prior methods.
- Abstract(参考訳): 自己回帰型マルチモーダル大言語モデル(MLLM)は、3D生成を可能にするが、3Dトークン化が不十分なため、高解像度化に苦慮する。
コンパクトな集合ベースの表現は決定論的空間秩序を捨て、不明瞭なシーケンス予測をもたらす一方、均一またはオクツリーベースのボクセルグリッドは厳密な冗長性と過度に長いシーケンスのコストで順序を保っている。
この構造的トレードオフは安定かつ効率的な自己回帰型3D生成を制限している。
本稿では,適応性と決定的に順序付けられたスーパーボクセルトークン化により,このテンションを解消する表現ファーストフレームワークであるSuperVoxelGPTを提案する。
まず, 粗い幾何学的塩分分布を予測し, 細粒度細胞を複雑な領域に, より大きな細胞を滑らかな領域に配置し, 塩分濃度誘導型センチロイドウォロニテセルレーションを用いて形状適応型スーパーボクセルパーティションを構築した。
テキストと順序付きスーパーボクセルレイアウトを条件に、スーパーボクセルVAEを導入し、プリトレーニング済みMLLMを微調整して、スーパーボクセルトークンを自動回帰生成する。
Trellis-500Kの実験では、SuperVoxelGPTはトークンのシーケンス長を12.8%まで短縮し、最先端の生成品質と従来の手法よりも平均10$\times$のスピードアップを実現している。
関連論文リスト
- Generative 3D Gaussians with Learned Density Control [41.893507326094415]
本稿では,適応的なレンダリングプリミティブとスケーラブルな生成モデルとのギャップを埋めるために設計された,新しい3次元表現であるDigital-Sampled Gaussian(DeG)を紹介する。
論文 参考訳(メタデータ) (2026-05-08T17:54:25Z) - LoST: Level of Semantics Tokenization for 3D Shapes [50.847769883816085]
State-of-the-artメソッドは、もともとレンダリングと圧縮のために設計された幾何学的なレベル・オブ・ディテール(LoD)階層に依存している。
本稿では,初期接頭辞が完全かつ可塑性な形状をデコードするように,サリエンスを指示するレベル・オブ・セマンティックス・トークン化(LoST)を提案する。
LoSTはSOTA再構成を実現し、幾何的および意味的再構成のメトリクスにおいて、従来のLoDベースの3次元形状トークン化器を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2026-03-18T17:56:06Z) - OctGPT: Octree-based Multiscale Autoregressive Models for 3D Shape Generation [24.980804600194062]
OctGPTは3次元形状生成のための新しいマルチスケール自己回帰モデルである。
従来の3D自動回帰手法の効率と性能を劇的に向上させる。
高品質でスケーラブルな3Dコンテンツ作成のための新しいパラダイムを提供する。
論文 参考訳(メタデータ) (2025-04-14T08:31:26Z) - Efficient Autoregressive Shape Generation via Octree-Based Adaptive Tokenization [68.07464514094299]
既存の方法では、すべての形状を固定サイズのトークンにエンコードし、3Dデータにまたがるスケールと複雑さの固有のバリエーションを無視している。
形状の複雑さに応じて潜在表現の次元を調節する新しいフレームワークであるOctoreeをベースとした適応トークン化を提案する。
当社の手法では,同等の視覚的品質を維持しながら,固定サイズの手法に比べてトークン数を50%削減する。
論文 参考訳(メタデータ) (2025-04-03T17:57:52Z) - Geometric Algebra Planes: Convex Implicit Neural Volumes [70.12234371845445]
GA-Planes はスパース低ランク係数と低分解能行列と等価であることを示す。
また,GA-Planeは既存の表現にも適用可能であることを示す。
論文 参考訳(メタデータ) (2024-11-20T18:21:58Z) - G3PT: Unleash the power of Autoregressive Modeling in 3D Generation via Cross-scale Querying Transformer [4.221298212125194]
本稿では,大規模クエリ変換器を用いたスケーラブルな粗粒度3次元生成モデルであるG3PTを紹介する。
大規模クエリ変換器は、順序づけられたシーケンスを必要とせずに、さまざまな詳細レベルのトークンをグローバルに接続する。
実験により、G3PTは従来の3次元生成法に比べて優れた生成品質と一般化能力が得られることが示された。
論文 参考訳(メタデータ) (2024-09-10T08:27:19Z) - MeshXL: Neural Coordinate Field for Generative 3D Foundation Models [51.1972329762843]
本稿では,現代の大規模言語モデルを用いた3次元メッシュ生成のプロセスに対処する,事前学習型自己回帰モデルの生成ファミリを提案する。
MeshXLは高品質な3Dメッシュを生成することができ、さまざまなダウンストリームアプリケーションの基盤モデルとしても機能する。
論文 参考訳(メタデータ) (2024-05-31T14:35:35Z) - Octree Transformer: Autoregressive 3D Shape Generation on Hierarchically
Structured Sequences [11.09257948735229]
自己回帰モデルは、NLPテキスト生成タスクにおいて非常に強力であることが証明されている。
本稿では,シーケンス長を大幅に削減する適応圧縮方式を提案する。
形状生成における最先端技術との比較により,本モデルの性能を実証する。
論文 参考訳(メタデータ) (2021-11-24T13:17:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。