論文の概要: Fast Training of Diffusion Transformer with Extreme Masking for 3D Point
Clouds Generation
- arxiv url: http://arxiv.org/abs/2312.07231v1
- Date: Tue, 12 Dec 2023 12:50:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 16:15:45.964585
- Title: Fast Training of Diffusion Transformer with Extreme Masking for 3D Point
Clouds Generation
- Title(参考訳): 極端マスキングを用いた3次元点雲生成用拡散変圧器の高速訓練
- Authors: Shentong Mo, Enze Xie, Yue Wu, Junsong Chen, Matthias Nie{\ss}ner,
Zhenguo Li
- Abstract要約: 我々は,効率的な3次元点雲生成に適したマスク付き拡散変圧器であるFastDiT-3Dを提案する。
また,新しいボクセル対応マスキング手法を提案し,ボクセル化点雲から背景・地上情報を適応的に集約する。
本手法は, マスキング比が99%近い最先端性能を実現する。
- 参考スコア(独自算出の注目度): 64.99362684909914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Transformers have recently shown remarkable effectiveness in
generating high-quality 3D point clouds. However, training voxel-based
diffusion models for high-resolution 3D voxels remains prohibitively expensive
due to the cubic complexity of attention operators, which arises from the
additional dimension of voxels. Motivated by the inherent redundancy of 3D
compared to 2D, we propose FastDiT-3D, a novel masked diffusion transformer
tailored for efficient 3D point cloud generation, which greatly reduces
training costs. Specifically, we draw inspiration from masked autoencoders to
dynamically operate the denoising process on masked voxelized point clouds. We
also propose a novel voxel-aware masking strategy to adaptively aggregate
background/foreground information from voxelized point clouds. Our method
achieves state-of-the-art performance with an extreme masking ratio of nearly
99%. Moreover, to improve multi-category 3D generation, we introduce
Mixture-of-Expert (MoE) in 3D diffusion model. Each category can learn a
distinct diffusion path with different experts, relieving gradient conflict.
Experimental results on the ShapeNet dataset demonstrate that our method
achieves state-of-the-art high-fidelity and diverse 3D point cloud generation
performance. Our FastDiT-3D improves 1-Nearest Neighbor Accuracy and Coverage
metrics when generating 128-resolution voxel point clouds, using only 6.5% of
the original training cost.
- Abstract(参考訳): 拡散変換器は近年,高品質な3D点雲の生成において顕著な効果を示した。
しかし、高分解能な3次元ボクセルに対するボクセルベース拡散モデルの訓練は、ボクセルの付加次元から生じる注意演算子の3次複雑さのため、非常に高価である。
2Dと比較して3Dの固有冗長性によって動機づけられたFastDiT-3Dは、効率的な3Dポイントクラウド生成に適したマスク付き拡散変圧器であり、トレーニングコストを大幅に削減する。
具体的には、マスク付きオートエンコーダからインスピレーションを得て、マスク付き酸化点雲上で動的に復調処理を行う。
また,ボクセル化ポイントクラウドから背景/フォアグラウンド情報を適応的に集約する新しいボクセルアウェアマスキング戦略を提案する。
本手法は, マスキング比が99%近い最先端性能を実現する。
さらに、3次元拡散モデルにMixture-of-Expert(MoE)を導入する。
各カテゴリは、異なる専門家による明確な拡散経路を学習し、勾配の衝突を軽減できる。
ShapeNetデータセットの実験結果から,本手法は最先端の高忠実度および多様な3Dポイントクラウド生成性能を実現する。
当社のFastDiT-3Dは、128解像度のボクセル点雲を生成する際の1-Nearest Neighbor Accuracy and Coverageのメトリクスを、当初のトレーニングコストの6.5%で改善しています。
関連論文リスト
- DiffTF++: 3D-aware Diffusion Transformer for Large-Vocabulary 3D Generation [53.20147419879056]
拡散型フィードフォワードフレームワークを導入し,単一モデルで課題に対処する。
TransFormerを用いた3D対応拡散モデルを構築し,より強力な3D生成,すなわちDiffTF++を提案する。
ShapeNetとOmniObject3Dの実験は、提案したモジュールの有効性を確実に実証している。
論文 参考訳(メタデータ) (2024-05-13T17:59:51Z) - LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation [73.36690511083894]
本稿では,LN3Diffと呼ばれる新しいフレームワークを導入し,統一された3次元拡散パイプラインに対処する。
提案手法では,3次元アーキテクチャと変分オートエンコーダを用いて,入力画像を構造化されたコンパクトな3次元潜在空間に符号化する。
3次元生成のためのShapeNetの最先端性能を実現し,モノクロ3次元再構成と条件付き3次元生成において優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-18T17:54:34Z) - StableDreamer: Taming Noisy Score Distillation Sampling for Text-to-3D [88.66678730537777]
本稿では3つの進歩を取り入れた方法論であるStableDreamerを紹介する。
まず、SDS生成前の等価性と、簡単な教師付きL2再構成損失を定式化する。
第2に,画像空間拡散は幾何学的精度に寄与するが,色調の鮮明化には潜時空間拡散が不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-02T02:27:58Z) - DiT-3D: Exploring Plain Diffusion Transformers for 3D Shape Generation [49.22974835756199]
本稿では,3次元形状生成のための新しい拡散変換器,すなわちDiT-3Dを提案する。
既存のU-Netアプローチと比較して、私たちのDiT-3Dはモデルサイズがよりスケーラブルで、より高品質な世代を生み出す。
ShapeNetデータセットの実験結果から,提案したDiT-3Dが最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2023-07-04T17:15:46Z) - Fast Point Cloud Generation with Straight Flows [44.76242251282731]
ポイント・ストレート・フロー(Point Straight Flow)は、1ステップで素晴らしいパフォーマンスを示すモデルである。
我々は, 連続経路を1段階に短縮する蒸留法を開発した。
我々は,複数の3次元タスクに対して評価を行い,標準拡散モデルに適合してPSFが動作することを確認した。
論文 参考訳(メタデータ) (2022-12-04T06:10:44Z) - 3D Neural Field Generation using Triplane Diffusion [37.46688195622667]
ニューラルネットワークの3次元認識のための効率的な拡散ベースモデルを提案する。
当社のアプローチでは,ShapeNetメッシュなどのトレーニングデータを,連続的占有フィールドに変換することによって前処理する。
本論文では,ShapeNetのオブジェクトクラスにおける3D生成の現状について述べる。
論文 参考訳(メタデータ) (2022-11-30T01:55:52Z) - Magic3D: High-Resolution Text-to-3D Content Creation [78.40092800817311]
DreamFusionは最近、NeRF(Neural Radiance Fields)を最適化するための事前訓練されたテキスト-画像拡散モデルの有用性を実証した。
本稿では,2段階最適化フレームワークを用いて,これらの制約に対処する。
Magic3Dと呼ばれる我々の手法は、DreamFusionより2倍高速な高品質な3Dメッシュモデルを40分で作成できる。
論文 参考訳(メタデータ) (2022-11-18T18:59:59Z) - DV-Det: Efficient 3D Point Cloud Object Detection with Dynamic
Voxelization [0.0]
本稿では,効率的な3Dポイント・クラウド・オブジェクト検出のための新しい2段階フレームワークを提案する。
生のクラウドデータを3D空間で直接解析するが、目覚ましい効率と精度を実現する。
我々は,75 FPSでKITTI 3Dオブジェクト検出データセットを,25 FPSの推論速度で良好な精度でOpenデータセット上で強調する。
論文 参考訳(メタデータ) (2021-07-27T10:07:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。