論文の概要: GaussianGPT: Towards Autoregressive 3D Gaussian Scene Generation
- arxiv url: http://arxiv.org/abs/2603.26661v1
- Date: Fri, 27 Mar 2026 17:58:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.63502
- Title: GaussianGPT: Towards Autoregressive 3D Gaussian Scene Generation
- Title(参考訳): GaussianGPT: 自動回帰型3Dガウスシーン生成に向けて
- Authors: Nicolas von Lützow, Barbara Rössle, Katharina Schmid, Matthias Nießner,
- Abstract要約: 本稿では,3次元ガウスを直接生成するトランスフォーマーモデルを提案する。
得られたトークンは、3次元回転する位置埋め込みを備えた因果変換器を用いてシリアライズされ、モデル化される。
シーンを均等に洗練する拡散法とは異なり、私たちの定式化はシーンをステップバイステップで構築し、自然に完了を支え、露光し、温度による制御可能なサンプリングを行い、フレキシブルな生成地平線を創出する。
- 参考スコア(独自算出の注目度): 42.49842620609683
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most recent advances in 3D generative modeling rely on diffusion or flow-matching formulations. We instead explore a fully autoregressive alternative and introduce GaussianGPT, a transformer-based model that directly generates 3D Gaussians via next-token prediction, thus facilitating full 3D scene generation. We first compress Gaussian primitives into a discrete latent grid using a sparse 3D convolutional autoencoder with vector quantization. The resulting tokens are serialized and modeled using a causal transformer with 3D rotary positional embedding, enabling sequential generation of spatial structure and appearance. Unlike diffusion-based methods that refine scenes holistically, our formulation constructs scenes step-by-step, naturally supporting completion, outpainting, controllable sampling via temperature, and flexible generation horizons. This formulation leverages the compositional inductive biases and scalability of autoregressive modeling while operating on explicit representations compatible with modern neural rendering pipelines, positioning autoregressive transformers as a complementary paradigm for controllable and context-aware 3D generation.
- Abstract(参考訳): 最近の3次元生成モデリングの進歩は拡散やフローマッチングの定式化に依存している。
代わりに、完全に自己回帰的な代替品を探究し、3Dガウスを直接生成するトランスフォーマーベースモデルであるGaussianGPTを導入し、フル3Dシーン生成を容易にする。
まず,ベクトル量子化を用いたスパース3次元畳み込みオートエンコーダを用いて,ガウスプリミティブを離散潜在格子に圧縮する。
得られたトークンは、3次元回転する位置埋め込みを備えた因果変換器を用いてシリアライズされ、空間構造と外観のシーケンシャルな生成を可能にする。
シーンを均等に洗練する拡散法とは異なり、私たちの定式化はシーンをステップバイステップで構築し、完了を自然にサポートし、露光し、温度による制御可能なサンプリングを行い、フレキシブルな生成地平線を創出する。
この定式化は、合成帰納的バイアスと自己回帰的モデリングのスケーラビリティを活用し、現代のニューラルレンダリングパイプラインと互換性のある明示的な表現を運用し、自己回帰的トランスフォーマーを制御可能でコンテキスト対応の3D生成の補完パラダイムとして位置づける。
関連論文リスト
- Distilling Multi-view Diffusion Models into 3D Generators [4.3238419212557115]
本稿では,多視点拡散モデル(MV-DM)をガウススプラッティングを用いた3次元ジェネレータに拡散させる定式化であるDD3Gを紹介する。
DD3GはMV-DMから広範囲の視覚的および空間的知識を圧縮し統合する。
本稿では,パターン抽出とプログレッシブデコーディングのフェーズからなるジェネレータPEPDを提案する。
論文 参考訳(メタデータ) (2025-04-01T06:32:48Z) - GaussTR: Foundation Model-Aligned Gaussian Transformer for Self-Supervised 3D Spatial Understanding [44.68350305790145]
GaussTRは3次元空間理解を促進するためにガウス表現を通して基礎モデルアライメントとスパース3次元モデリングを統一する新しいトランスフォーマーフレームワークである。
Occ3D-nuScenesデータセットの実験では、GaussTRの12.27 mIoUの最先端のゼロショット性能と、トレーニング時間の40%削減が示されている。
これらの結果は、スケーラブルで総合的な3次元空間理解のためのGaussTRの有効性を強調し、自律運転とエンボディエージェントに有望な意味を持つ。
論文 参考訳(メタデータ) (2024-12-17T18:59:46Z) - L3DG: Latent 3D Gaussian Diffusion [74.36431175937285]
L3DGは3次元ガウス拡散定式化による3次元ガウスの3次元モデリングのための最初のアプローチである。
我々は、部屋の大きさのシーンで効率的に操作するために、スパース畳み込みアーキテクチャーを用いている。
3Dガウス表現を利用することで、生成されたシーンを任意の視点からリアルタイムでレンダリングすることができる。
論文 参考訳(メタデータ) (2024-10-17T13:19:32Z) - GaussianCube: A Structured and Explicit Radiance Representation for 3D Generative Modeling [55.05713977022407]
構造的かつ完全明快な放射率表現を導入し、3次元生成モデリングを大幅に促進する。
我々はまず,新しい密度制約付きガウス適合アルゴリズムを用いてガウスキューブを導出する。
非条件およびクラス条件オブジェクト生成、デジタルアバター生成、テキスト・トゥ・3Dによる実験は、我々のモデル合成が最先端の生成結果を達成することを示す。
論文 参考訳(メタデータ) (2024-03-28T17:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。