論文の概要: G3PT: Unleash the power of Autoregressive Modeling in 3D Generation via Cross-scale Querying Transformer
- arxiv url: http://arxiv.org/abs/2409.06322v1
- Date: Tue, 10 Sep 2024 08:27:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 18:30:15.439306
- Title: G3PT: Unleash the power of Autoregressive Modeling in 3D Generation via Cross-scale Querying Transformer
- Title(参考訳): G3PT: クロススケールクエリ変換器による3次元生成における自己回帰モデリングのパワーを解き放つ
- Authors: Jinzhi Zhang, Feng Xiong, Mu Xu,
- Abstract要約: 本稿では,大規模クエリ変換器を用いたスケーラブルな粗粒度3次元生成モデルであるG3PTを紹介する。
大規模クエリ変換器は、順序づけられたシーケンスを必要とせずに、さまざまな詳細レベルのトークンをグローバルに接続する。
実験により、G3PTは従来の3次元生成法に比べて優れた生成品質と一般化能力が得られることが示された。
- 参考スコア(独自算出の注目度): 4.221298212125194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive transformers have revolutionized generative models in language processing and shown substantial promise in image and video generation. However, these models face significant challenges when extended to 3D generation tasks due to their reliance on next-token prediction to learn token sequences, which is incompatible with the unordered nature of 3D data. Instead of imposing an artificial order on 3D data, in this paper, we introduce G3PT, a scalable coarse-to-fine 3D generative model utilizing a cross-scale querying transformer. The key is to map point-based 3D data into discrete tokens with different levels of detail, naturally establishing a sequential relationship between different levels suitable for autoregressive modeling. Additionally, the cross-scale querying transformer connects tokens globally across different levels of detail without requiring an ordered sequence. Benefiting from this approach, G3PT features a versatile 3D generation pipeline that effortlessly supports diverse conditional structures, enabling the generation of 3D shapes from various types of conditions. Extensive experiments demonstrate that G3PT achieves superior generation quality and generalization ability compared to previous 3D generation methods. Most importantly, for the first time in 3D generation, scaling up G3PT reveals distinct power-law scaling behaviors.
- Abstract(参考訳): 自己回帰変換器は言語処理における生成モデルに革命をもたらし、画像およびビデオ生成において大きな可能性を示してきた。
しかし、これらのモデルは、3Dデータの非順序の性質と相容れないトークン列を学習するための次のトークン列の予測に依存するため、3D生成タスクに拡張された場合、重大な課題に直面している。
本稿では,3次元データに人工的な順序を与える代わりに,大規模クエリ変換器を用いたスケーラブルな粗い3次元生成モデルであるG3PTを紹介する。
鍵となるのは、ポイントベースの3Dデータを異なるレベルの詳細を持つ離散トークンにマッピングし、自然に自己回帰モデリングに適した異なるレベルのシーケンシャルな関係を確立することである。
さらに、クロススケールクエリ変換器は、順序づけられたシーケンスを必要とせずに、さまざまな詳細レベルのトークンをグローバルに接続する。
このアプローチの恩恵を受け、G3PTは多用途な3D生成パイプラインを備え、多様な条件構造をサポートし、様々な種類の条件から3D形状を生成することができる。
広汎な実験により,G3PTは従来の3次元生成法に比べて優れた生成品質と一般化能力が得られることが示された。
最も重要なことは、3D世代で初めて、G3PTのスケールアップによって、異なるパワールールのスケーリング動作が明らかになることだ。
関連論文リスト
- Any-to-3D Generation via Hybrid Diffusion Supervision [67.54197818071464]
XBindは、クロスモーダルな事前アライメント技術を用いた、任意の3D生成のための統一されたフレームワークである。
XBindは、任意のモダリティから3Dオブジェクトを生成するために、事前訓練された拡散モデルとマルチモーダル整列エンコーダを統合する。
論文 参考訳(メタデータ) (2024-11-22T03:52:37Z) - GSD: View-Guided Gaussian Splatting Diffusion for 3D Reconstruction [52.04103235260539]
単一視点からの3次元オブジェクト再構成のためのガウススプティング表現に基づく拡散モデル手法を提案する。
モデルはGS楕円体の集合で表される3Dオブジェクトを生成することを学習する。
最終的な再構成されたオブジェクトは、高品質な3D構造とテクスチャを持ち、任意のビューで効率的にレンダリングできる。
論文 参考訳(メタデータ) (2024-07-05T03:43:08Z) - VividDreamer: Towards High-Fidelity and Efficient Text-to-3D Generation [69.68568248073747]
拡散に基づく3次元生成タスクにおいて, ポーズ依存型連続蒸留サンプリング (PCDS) を提案する。
PCDSは拡散軌道内でポーズ依存整合関数を構築し、最小サンプリングステップで真の勾配を近似することができる。
そこで我々は,まず1ステップのPCDSを用いて3Dオブジェクトの基本構造を作成し,さらに徐々にPCDSのステップを拡大して細かな細部を生成する,粗大な最適化手法を提案する。
論文 参考訳(メタデータ) (2024-06-21T08:21:52Z) - DiffTF++: 3D-aware Diffusion Transformer for Large-Vocabulary 3D Generation [53.20147419879056]
拡散型フィードフォワードフレームワークを導入し,単一モデルで課題に対処する。
TransFormerを用いた3D対応拡散モデルを構築し,より強力な3D生成,すなわちDiffTF++を提案する。
ShapeNetとOmniObject3Dの実験は、提案したモジュールの有効性を確実に実証している。
論文 参考訳(メタデータ) (2024-05-13T17:59:51Z) - Interactive3D: Create What You Want by Interactive 3D Generation [13.003964182554572]
我々はインタラクティブな3D生成のための革新的なフレームワークであるInteractive3Dを紹介した。
実験の結果,Interactive3Dは3D生成の制御性と品質を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-04-25T11:06:57Z) - Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability [118.26563926533517]
自己回帰モデルでは,格子空間における関節分布をモデル化することにより,2次元画像生成において顕著な結果が得られた。
自動回帰モデルを3次元領域に拡張し,キャパシティとスケーラビリティを同時に向上することにより,3次元形状生成の強力な能力を求める。
論文 参考訳(メタデータ) (2024-02-19T15:33:09Z) - Large-Vocabulary 3D Diffusion Model with Transformer [57.076986347047]
本稿では,1つの生成モデルを用いて実世界の3Dオブジェクトの大規模カテゴリを合成するための拡散型フィードフォワードフレームワークを提案する。
本稿では,三面体を用いた3次元拡散モデル(TransFormer, DiffTF)を提案する。
ShapeNetとOmniObject3Dの実験は、単一のDiffTFモデルが最先端の大語彙3Dオブジェクト生成性能を達成することを確実に実証している。
論文 参考訳(メタデータ) (2023-09-14T17:59:53Z) - Octree Transformer: Autoregressive 3D Shape Generation on Hierarchically
Structured Sequences [11.09257948735229]
自己回帰モデルは、NLPテキスト生成タスクにおいて非常に強力であることが証明されている。
本稿では,シーケンス長を大幅に削減する適応圧縮方式を提案する。
形状生成における最先端技術との比較により,本モデルの性能を実証する。
論文 参考訳(メタデータ) (2021-11-24T13:17:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。