論文の概要: G3PT: Unleash the power of Autoregressive Modeling in 3D Generation via Cross-scale Querying Transformer
- arxiv url: http://arxiv.org/abs/2409.06322v1
- Date: Tue, 10 Sep 2024 08:27:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 18:30:15.439306
- Title: G3PT: Unleash the power of Autoregressive Modeling in 3D Generation via Cross-scale Querying Transformer
- Title(参考訳): G3PT: クロススケールクエリ変換器による3次元生成における自己回帰モデリングのパワーを解き放つ
- Authors: Jinzhi Zhang, Feng Xiong, Mu Xu,
- Abstract要約: 本稿では,大規模クエリ変換器を用いたスケーラブルな粗粒度3次元生成モデルであるG3PTを紹介する。
大規模クエリ変換器は、順序づけられたシーケンスを必要とせずに、さまざまな詳細レベルのトークンをグローバルに接続する。
実験により、G3PTは従来の3次元生成法に比べて優れた生成品質と一般化能力が得られることが示された。
- 参考スコア(独自算出の注目度): 4.221298212125194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive transformers have revolutionized generative models in language processing and shown substantial promise in image and video generation. However, these models face significant challenges when extended to 3D generation tasks due to their reliance on next-token prediction to learn token sequences, which is incompatible with the unordered nature of 3D data. Instead of imposing an artificial order on 3D data, in this paper, we introduce G3PT, a scalable coarse-to-fine 3D generative model utilizing a cross-scale querying transformer. The key is to map point-based 3D data into discrete tokens with different levels of detail, naturally establishing a sequential relationship between different levels suitable for autoregressive modeling. Additionally, the cross-scale querying transformer connects tokens globally across different levels of detail without requiring an ordered sequence. Benefiting from this approach, G3PT features a versatile 3D generation pipeline that effortlessly supports diverse conditional structures, enabling the generation of 3D shapes from various types of conditions. Extensive experiments demonstrate that G3PT achieves superior generation quality and generalization ability compared to previous 3D generation methods. Most importantly, for the first time in 3D generation, scaling up G3PT reveals distinct power-law scaling behaviors.
- Abstract(参考訳): 自己回帰変換器は言語処理における生成モデルに革命をもたらし、画像およびビデオ生成において大きな可能性を示してきた。
しかし、これらのモデルは、3Dデータの非順序の性質と相容れないトークン列を学習するための次のトークン列の予測に依存するため、3D生成タスクに拡張された場合、重大な課題に直面している。
本稿では,3次元データに人工的な順序を与える代わりに,大規模クエリ変換器を用いたスケーラブルな粗い3次元生成モデルであるG3PTを紹介する。
鍵となるのは、ポイントベースの3Dデータを異なるレベルの詳細を持つ離散トークンにマッピングし、自然に自己回帰モデリングに適した異なるレベルのシーケンシャルな関係を確立することである。
さらに、クロススケールクエリ変換器は、順序づけられたシーケンスを必要とせずに、さまざまな詳細レベルのトークンをグローバルに接続する。
このアプローチの恩恵を受け、G3PTは多用途な3D生成パイプラインを備え、多様な条件構造をサポートし、様々な種類の条件から3D形状を生成することができる。
広汎な実験により,G3PTは従来の3次元生成法に比べて優れた生成品質と一般化能力が得られることが示された。
最も重要なことは、3D世代で初めて、G3PTのスケールアップによって、異なるパワールールのスケーリング動作が明らかになることだ。
関連論文リスト
- TripoSG: High-Fidelity 3D Shape Synthesis using Large-Scale Rectified Flow Models [69.0220314849478]
TripoSGは入力画像に正確に対応して高忠実度3Dメッシュを生成することができる新しいパラダイムである。
結果として得られた3D形状は、高解像度の能力によって細部を拡大し、入力した現在年齢に対して例外的な忠実さを示す。
3Dジェネレーションの分野における進歩と革新を促進するため、我々はモデルを一般公開する。
論文 参考訳(メタデータ) (2025-02-10T16:07:54Z) - F3D-Gaus: Feed-forward 3D-aware Generation on ImageNet with Cycle-Consistent Gaussian Splatting [35.625593119642424]
本稿では,モノケプラーデータセットから3次元認識を一般化する問題に取り組む。
画素整列型ガウススプラッティングに基づく新しいフィードフォワードパイプラインを提案する。
また、学習した3D表現において、クロスビューの一貫性を強制するために、自己教師付きサイクル一貫性制約を導入する。
論文 参考訳(メタデータ) (2025-01-12T04:44:44Z) - TAR3D: Creating High-Quality 3D Assets via Next-Part Prediction [137.34863114016483]
TAR3Dは、3D対応ベクトル量子可変オートエンコーダ(VQ-VAE)と生成事前学習トランス(GPT)で構成される新しいフレームワークである。
TAR3Dは,テキスト・ツー・3Dタスクや画像・ツー・3Dタスクにおいて,既存の手法よりも優れた生成品質が得られることを示す。
論文 参考訳(メタデータ) (2024-12-22T08:28:20Z) - Structured 3D Latents for Scalable and Versatile 3D Generation [28.672494137267837]
汎用的で高品質な3Dアセット作成のための新しい3D生成手法を提案する。
基本となるのは、異なる出力フォーマットへのデコードを可能にする、構造化されたLATent表現である。
これは、疎人口の少ない3Dグリッドと、強力な視覚基盤モデルから抽出された濃密な多視点視覚特徴を統合することで実現される。
論文 参考訳(メタデータ) (2024-12-02T13:58:38Z) - 3D-WAG: Hierarchical Wavelet-Guided Autoregressive Generation for High-Fidelity 3D Shapes [20.675695749508353]
本研究では,非条件形状生成が可能な3次元暗黙距離場のためのARモデルである3D-WAGを紹介する。
3次元AR生成タスクを次のスケールの予測として再定義することにより、生成の計算コストを削減できる。
以上の結果から,3D-WAGはCoverageやMDといった重要な指標において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-11-28T10:33:01Z) - Any-to-3D Generation via Hybrid Diffusion Supervision [67.54197818071464]
XBindは、クロスモーダルな事前アライメント技術を用いた、任意の3D生成のための統一されたフレームワークである。
XBindは、任意のモダリティから3Dオブジェクトを生成するために、事前訓練された拡散モデルとマルチモーダル整列エンコーダを統合する。
論文 参考訳(メタデータ) (2024-11-22T03:52:37Z) - VividDreamer: Towards High-Fidelity and Efficient Text-to-3D Generation [69.68568248073747]
拡散に基づく3次元生成タスクにおいて, ポーズ依存型連続蒸留サンプリング (PCDS) を提案する。
PCDSは拡散軌道内でポーズ依存整合関数を構築し、最小サンプリングステップで真の勾配を近似することができる。
そこで我々は,まず1ステップのPCDSを用いて3Dオブジェクトの基本構造を作成し,さらに徐々にPCDSのステップを拡大して細かな細部を生成する,粗大な最適化手法を提案する。
論文 参考訳(メタデータ) (2024-06-21T08:21:52Z) - DiffTF++: 3D-aware Diffusion Transformer for Large-Vocabulary 3D Generation [53.20147419879056]
拡散型フィードフォワードフレームワークを導入し,単一モデルで課題に対処する。
TransFormerを用いた3D対応拡散モデルを構築し,より強力な3D生成,すなわちDiffTF++を提案する。
ShapeNetとOmniObject3Dの実験は、提案したモジュールの有効性を確実に実証している。
論文 参考訳(メタデータ) (2024-05-13T17:59:51Z) - Large-Vocabulary 3D Diffusion Model with Transformer [57.076986347047]
本稿では,1つの生成モデルを用いて実世界の3Dオブジェクトの大規模カテゴリを合成するための拡散型フィードフォワードフレームワークを提案する。
本稿では,三面体を用いた3次元拡散モデル(TransFormer, DiffTF)を提案する。
ShapeNetとOmniObject3Dの実験は、単一のDiffTFモデルが最先端の大語彙3Dオブジェクト生成性能を達成することを確実に実証している。
論文 参考訳(メタデータ) (2023-09-14T17:59:53Z) - Octree Transformer: Autoregressive 3D Shape Generation on Hierarchically
Structured Sequences [11.09257948735229]
自己回帰モデルは、NLPテキスト生成タスクにおいて非常に強力であることが証明されている。
本稿では,シーケンス長を大幅に削減する適応圧縮方式を提案する。
形状生成における最先端技術との比較により,本モデルの性能を実証する。
論文 参考訳(メタデータ) (2021-11-24T13:17:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。