論文の概要: MAR-3D: Progressive Masked Auto-regressor for High-Resolution 3D Generation
- arxiv url: http://arxiv.org/abs/2503.20519v1
- Date: Wed, 26 Mar 2025 13:00:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:20:18.856252
- Title: MAR-3D: Progressive Masked Auto-regressor for High-Resolution 3D Generation
- Title(参考訳): MAR-3D:高分解能3D生成のためのプログレッシブマスク付き自動回帰器
- Authors: Jinnan Chen, Lingting Zhu, Zeyu Hu, Shengju Qian, Yugang Chen, Xin Wang, Gim Hee Lee,
- Abstract要約: ピラミッド変分オートエンコーダとカスケードマスク自動回帰変換器を統合したMAR-3Dを提案する。
我々のアーキテクチャは、トレーニング中にランダムマスキングを採用し、推論中にランダムな順序で自動回帰化を行い、自然に3D潜在トークンの無秩序な性質を調節する。
- 参考スコア(独自算出の注目度): 44.94438766074643
- License:
- Abstract: Recent advances in auto-regressive transformers have revolutionized generative modeling across different domains, from language processing to visual generation, demonstrating remarkable capabilities. However, applying these advances to 3D generation presents three key challenges: the unordered nature of 3D data conflicts with sequential next-token prediction paradigm, conventional vector quantization approaches incur substantial compression loss when applied to 3D meshes, and the lack of efficient scaling strategies for higher resolution latent prediction. To address these challenges, we introduce MAR-3D, which integrates a pyramid variational autoencoder with a cascaded masked auto-regressive transformer (Cascaded MAR) for progressive latent upscaling in the continuous space. Our architecture employs random masking during training and auto-regressive denoising in random order during inference, naturally accommodating the unordered property of 3D latent tokens. Additionally, we propose a cascaded training strategy with condition augmentation that enables efficiently up-scale the latent token resolution with fast convergence. Extensive experiments demonstrate that MAR-3D not only achieves superior performance and generalization capabilities compared to existing methods but also exhibits enhanced scaling capabilities compared to joint distribution modeling approaches (e.g., diffusion transformers).
- Abstract(参考訳): 自動回帰変換器の最近の進歩は、言語処理から視覚生成まで、様々な領域にわたる生成モデリングに革命をもたらした。
しかし、これらの進歩を3次元世代に適用すると、3次元データ競合と連続的な次トーケン予測パラダイムとの非順序性、従来のベクトル量子化アプローチは3次元メッシュに適用した場合にかなりの圧縮損失を生じること、高分解能遅延予測のための効率的なスケーリング戦略が欠如すること、の3つの大きな課題が示される。
これらの課題に対処するために、ピラミッド変分オートエンコーダとカスケードマスク付き自動回帰変換器(カスケードMAR)を統合したMAR-3Dを導入する。
我々のアーキテクチャは、トレーニング中にランダムマスキングを採用し、推論中にランダムな順序で自動回帰化を行い、自然に3D潜在トークンの無秩序な性質を調節する。
さらに,コンバージェンスを高速化した潜在トークン解決を効率的にスケールアップできる条件拡張付きカスケードトレーニング戦略を提案する。
大規模実験により,MAR-3Dは既存手法に比べて優れた性能と一般化能力を発揮するだけでなく,関節分布モデリング手法(拡散変圧器など)と比較して拡張スケーリング能力を示すことが示された。
関連論文リスト
- Textured 3D Regenerative Morphing with 3D Diffusion Prior [29.7508625572437]
テクスチャ化された3Dモーフィングは、2つの3Dオブジェクト間の滑らかで可塑性なシーケンスを生成する。
従来は点対点対応の確立と滑らかな変形軌跡の決定に頼っていた。
本稿では,3次元拡散を用いた3次元再生型モーフィング法を提案する。
論文 参考訳(メタデータ) (2025-02-20T07:02:22Z) - TripoSG: High-Fidelity 3D Shape Synthesis using Large-Scale Rectified Flow Models [69.0220314849478]
TripoSGは、入力画像に正確に対応した高忠実度3Dメッシュを生成することができる新しい合理化形状拡散パラダイムである。
結果として得られた3D形状は、高解像度の能力によって細部が強化され、入力画像に異常な忠実さを示す。
3Dジェネレーションの分野における進歩と革新を促進するため、我々はモデルを一般公開する。
論文 参考訳(メタデータ) (2025-02-10T16:07:54Z) - 3D-WAG: Hierarchical Wavelet-Guided Autoregressive Generation for High-Fidelity 3D Shapes [20.675695749508353]
本研究では,非条件形状生成が可能な3次元暗黙距離場のためのARモデルである3D-WAGを紹介する。
3次元AR生成タスクを次のスケールの予測として再定義することにより、生成の計算コストを削減できる。
以上の結果から,3D-WAGはCoverageやMDといった重要な指標において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-11-28T10:33:01Z) - G3PT: Unleash the power of Autoregressive Modeling in 3D Generation via Cross-scale Querying Transformer [4.221298212125194]
本稿では,大規模クエリ変換器を用いたスケーラブルな粗粒度3次元生成モデルであるG3PTを紹介する。
大規模クエリ変換器は、順序づけられたシーケンスを必要とせずに、さまざまな詳細レベルのトークンをグローバルに接続する。
実験により、G3PTは従来の3次元生成法に比べて優れた生成品質と一般化能力が得られることが示された。
論文 参考訳(メタデータ) (2024-09-10T08:27:19Z) - 3D-Consistent Human Avatars with Sparse Inputs via Gaussian Splatting and Contrastive Learning [19.763523500564542]
CHASEはスパース入力のみを使用して高密度なインプットレベルのパフォーマンスを実現する新しいフレームワークである。
トレーニングセットからの類似のポーズを活用することにより,変形したガウスを洗練する動的アバター調整(DAA)モジュールを導入する。
スパース入力用に設計されているが、CHASEはZJU-MoCapとH36Mデータセットのフル設定とスパース設定の両方で最先端のメソッドを超越している。
論文 参考訳(メタデータ) (2024-08-19T02:46:23Z) - Efficient 3D Shape Generation via Diffusion Mamba with Bidirectional SSMs [16.05598829701769]
3次元点雲生成に適した新しい拡散アーキテクチャーDiffusion Mamba (DiM-3D)を提案する。
DiM-3Dは従来の注意機構を捨て、代わりにMambaアーキテクチャの本質的な効率を利用して、シーケンス長に関する線形複雑性を維持する。
ShapeNetベンチマークによる実験結果から、DEM-3Dは高忠実で多様な3D形状を生成する上で、最先端の性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-06-07T16:02:07Z) - LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation [73.36690511083894]
本稿では,LN3Diffと呼ばれる新しいフレームワークを導入し,統一された3次元拡散パイプラインに対処する。
提案手法では,3次元アーキテクチャと変分オートエンコーダを用いて,入力画像を構造化されたコンパクトな3次元潜在空間に符号化する。
3次元生成のためのShapeNetの最先端性能を実現し,モノクロ3次元再構成と条件付き3次元生成において優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-18T17:54:34Z) - Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability [118.26563926533517]
自己回帰モデルでは,格子空間における関節分布をモデル化することにより,2次元画像生成において顕著な結果が得られた。
自動回帰モデルを3次元領域に拡張し,キャパシティとスケーラビリティを同時に向上することにより,3次元形状生成の強力な能力を求める。
論文 参考訳(メタデータ) (2024-02-19T15:33:09Z) - Training and Tuning Generative Neural Radiance Fields for Attribute-Conditional 3D-Aware Face Generation [66.21121745446345]
本稿では,特定の属性ラベルを入力として統合した条件付きGNeRFモデルを提案する。
提案手法は, 事前学習した3次元顔モデルに基づいており, 条件付き正規化フローモジュールをトレーニングするためのTraining as Init and fidelity for Tuning (TRIOT) 方式を提案する。
本実験は,ビューの整合性を高めた高品質な編集を行う能力を示すとともに,本モデルの有効性を実証するものである。
論文 参考訳(メタデータ) (2022-08-26T10:05:39Z) - LocATe: End-to-end Localization of Actions in 3D with Transformers [91.28982770522329]
LocATeは、3Dシーケンスでアクションを共同でローカライズし認識するエンドツーエンドのアプローチである。
画像やパッチの特徴を入力として考えるトランスフォーマーベースのオブジェクト検出や分類モデルとは異なり、LocATeのトランスフォーマーモデルはシーケンス内のアクション間の長期的な相関をキャプチャすることができる。
BABEL-TAL-20 (BT20) という新しい,挑戦的で,より現実的なベンチマークデータセットを導入する。
論文 参考訳(メタデータ) (2022-03-21T03:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。