Fugu-MT 論文翻訳(概要): G3PT: Unleash the power of Autoregressive Modeling in 3D Generation via Cross-scale Querying Transformer

論文の概要: G3PT: Unleash the power of Autoregressive Modeling in 3D Generation via Cross-scale Querying Transformer

arxiv url: http://arxiv.org/abs/2409.06322v1
Date: Tue, 10 Sep 2024 08:27:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-11 18:30:15.439306
Title: G3PT: Unleash the power of Autoregressive Modeling in 3D Generation via Cross-scale Querying Transformer
Title（参考訳）: G3PT: クロススケールクエリ変換器による3次元生成における自己回帰モデリングのパワーを解き放つ
Authors: Jinzhi Zhang, Feng Xiong, Mu Xu,
Abstract要約: 本稿では,大規模クエリ変換器を用いたスケーラブルな粗粒度3次元生成モデルであるG3PTを紹介する。大規模クエリ変換器は、順序づけられたシーケンスを必要とせずに、さまざまな詳細レベルのトークンをグローバルに接続する。実験により、G3PTは従来の3次元生成法に比べて優れた生成品質と一般化能力が得られることが示された。
参考スコア（独自算出の注目度）: 4.221298212125194
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Autoregressive transformers have revolutionized generative models in language processing and shown substantial promise in image and video generation. However, these models face significant challenges when extended to 3D generation tasks due to their reliance on next-token prediction to learn token sequences, which is incompatible with the unordered nature of 3D data. Instead of imposing an artificial order on 3D data, in this paper, we introduce G3PT, a scalable coarse-to-fine 3D generative model utilizing a cross-scale querying transformer. The key is to map point-based 3D data into discrete tokens with different levels of detail, naturally establishing a sequential relationship between different levels suitable for autoregressive modeling. Additionally, the cross-scale querying transformer connects tokens globally across different levels of detail without requiring an ordered sequence. Benefiting from this approach, G3PT features a versatile 3D generation pipeline that effortlessly supports diverse conditional structures, enabling the generation of 3D shapes from various types of conditions. Extensive experiments demonstrate that G3PT achieves superior generation quality and generalization ability compared to previous 3D generation methods. Most importantly, for the first time in 3D generation, scaling up G3PT reveals distinct power-law scaling behaviors.
Abstract（参考訳）: 自己回帰変換器は言語処理における生成モデルに革命をもたらし、画像およびビデオ生成において大きな可能性を示してきた。しかし、これらのモデルは、3Dデータの非順序の性質と相容れないトークン列を学習するための次のトークン列の予測に依存するため、3D生成タスクに拡張された場合、重大な課題に直面している。本稿では,3次元データに人工的な順序を与える代わりに,大規模クエリ変換器を用いたスケーラブルな粗い3次元生成モデルであるG3PTを紹介する。鍵となるのは、ポイントベースの3Dデータを異なるレベルの詳細を持つ離散トークンにマッピングし、自然に自己回帰モデリングに適した異なるレベルのシーケンシャルな関係を確立することである。さらに、クロススケールクエリ変換器は、順序づけられたシーケンスを必要とせずに、さまざまな詳細レベルのトークンをグローバルに接続する。このアプローチの恩恵を受け、G3PTは多用途な3D生成パイプラインを備え、多様な条件構造をサポートし、様々な種類の条件から3D形状を生成することができる。広汎な実験により,G3PTは従来の3次元生成法に比べて優れた生成品質と一般化能力が得られることが示された。最も重要なことは、3D世代で初めて、G3PTのスケールアップによって、異なるパワールールのスケーリング動作が明らかになることだ。

関連論文リスト

OctGPT: Octree-based Multiscale Autoregressive Models for 3D Shape Generation [24.980804600194062]
OctGPTは3次元形状生成のための新しいマルチスケール自己回帰モデルである。従来の3D自動回帰手法の効率と性能を劇的に向上させる。高品質でスケーラブルな3Dコンテンツ作成のための新しいパラダイムを提供する。
論文参考訳（メタデータ） (2025-04-14T08:31:26Z)
MAR-3D: Progressive Masked Auto-regressor for High-Resolution 3D Generation [44.94438766074643]
ピラミッド変分オートエンコーダとカスケードマスク自動回帰変換器を統合したMAR-3Dを提案する。我々のアーキテクチャは、トレーニング中にランダムマスキングを採用し、推論中にランダムな順序で自動回帰化を行い、自然に3D潜在トークンの無秩序な性質を調節する。
論文参考訳（メタデータ） (2025-03-26T13:00:51Z)
GSV3D: Gaussian Splatting-based Geometric Distillation with Stable Video Diffusion for Single-Image 3D Object Generation [24.255633621887988]
本研究では,2次元拡散モデルの暗黙的3次元推論能力を活用しながら3次元の整合性を確保する手法を提案する。具体的には、提案したガウススプラッティングデコーダは、SV3D潜在出力を明示的な3D表現に変換することで、3D一貫性を強制する。その結果,高品質でマルチビュー一貫性のある画像と正確な3Dモデルが同時に生成されることがわかった。
論文参考訳（メタデータ） (2025-03-08T09:10:31Z)
TAR3D: Creating High-Quality 3D Assets via Next-Part Prediction [137.34863114016483]
TAR3Dは、3D対応ベクトル量子可変オートエンコーダ(VQ-VAE)と生成事前学習トランス(GPT)で構成される新しいフレームワークである。 TAR3Dは,テキスト・ツー・3Dタスクや画像・ツー・3Dタスクにおいて,既存の手法よりも優れた生成品質が得られることを示す。
論文参考訳（メタデータ） (2024-12-22T08:28:20Z)
3D-WAG: Hierarchical Wavelet-Guided Autoregressive Generation for High-Fidelity 3D Shapes [20.675695749508353]
本研究では,非条件形状生成が可能な3次元暗黙距離場のためのARモデルである3D-WAGを紹介する。 3次元AR生成タスクを次のスケールの予測として再定義することにより、生成の計算コストを削減できる。以上の結果から,3D-WAGはCoverageやMDといった重要な指標において優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-11-28T10:33:01Z)
Any-to-3D Generation via Hybrid Diffusion Supervision [67.54197818071464]
XBindは、クロスモーダルな事前アライメント技術を用いた、任意の3D生成のための統一されたフレームワークである。 XBindは、任意のモダリティから3Dオブジェクトを生成するために、事前訓練された拡散モデルとマルチモーダル整列エンコーダを統合する。
論文参考訳（メタデータ） (2024-11-22T03:52:37Z)
GSD: View-Guided Gaussian Splatting Diffusion for 3D Reconstruction [52.04103235260539]
単一視点からの3次元オブジェクト再構成のためのガウススプティング表現に基づく拡散モデル手法を提案する。モデルはGS楕円体の集合で表される3Dオブジェクトを生成することを学習する。最終的な再構成されたオブジェクトは、高品質な3D構造とテクスチャを持ち、任意のビューで効率的にレンダリングできる。
論文参考訳（メタデータ） (2024-07-05T03:43:08Z)
VividDreamer: Towards High-Fidelity and Efficient Text-to-3D Generation [69.68568248073747]
拡散に基づく3次元生成タスクにおいて, ポーズ依存型連続蒸留サンプリング (PCDS) を提案する。 PCDSは拡散軌道内でポーズ依存整合関数を構築し、最小サンプリングステップで真の勾配を近似することができる。そこで我々は,まず1ステップのPCDSを用いて3Dオブジェクトの基本構造を作成し,さらに徐々にPCDSのステップを拡大して細かな細部を生成する,粗大な最適化手法を提案する。
論文参考訳（メタデータ） (2024-06-21T08:21:52Z)
DiffTF++: 3D-aware Diffusion Transformer for Large-Vocabulary 3D Generation [53.20147419879056]
拡散型フィードフォワードフレームワークを導入し,単一モデルで課題に対処する。 TransFormerを用いた3D対応拡散モデルを構築し,より強力な3D生成,すなわちDiffTF++を提案する。 ShapeNetとOmniObject3Dの実験は、提案したモジュールの有効性を確実に実証している。
論文参考訳（メタデータ） (2024-05-13T17:59:51Z)
Interactive3D: Create What You Want by Interactive 3D Generation [13.003964182554572]
我々はインタラクティブな3D生成のための革新的なフレームワークであるInteractive3Dを紹介した。実験の結果,Interactive3Dは3D生成の制御性と品質を著しく向上させることがわかった。
論文参考訳（メタデータ） (2024-04-25T11:06:57Z)
Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability [118.26563926533517]
自己回帰モデルでは,格子空間における関節分布をモデル化することにより,2次元画像生成において顕著な結果が得られた。自動回帰モデルを3次元領域に拡張し,キャパシティとスケーラビリティを同時に向上することにより,3次元形状生成の強力な能力を求める。
論文参考訳（メタデータ） (2024-02-19T15:33:09Z)
Large-Vocabulary 3D Diffusion Model with Transformer [57.076986347047]
本稿では,1つの生成モデルを用いて実世界の3Dオブジェクトの大規模カテゴリを合成するための拡散型フィードフォワードフレームワークを提案する。本稿では,三面体を用いた3次元拡散モデル(TransFormer, DiffTF)を提案する。 ShapeNetとOmniObject3Dの実験は、単一のDiffTFモデルが最先端の大語彙3Dオブジェクト生成性能を達成することを確実に実証している。
論文参考訳（メタデータ） (2023-09-14T17:59:53Z)
Octree Transformer: Autoregressive 3D Shape Generation on Hierarchically Structured Sequences [11.09257948735229]
自己回帰モデルは、NLPテキスト生成タスクにおいて非常に強力であることが証明されている。本稿では,シーケンス長を大幅に削減する適応圧縮方式を提案する。形状生成における最先端技術との比較により,本モデルの性能を実証する。
論文参考訳（メタデータ） (2021-11-24T13:17:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。