論文の概要: Efficient 3D Shape Generation via Diffusion Mamba with Bidirectional SSMs
- arxiv url: http://arxiv.org/abs/2406.05038v1
- Date: Fri, 7 Jun 2024 16:02:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 13:22:27.806546
- Title: Efficient 3D Shape Generation via Diffusion Mamba with Bidirectional SSMs
- Title(参考訳): 双方向SSMを用いた拡散マンバによる高効率3次元形状生成
- Authors: Shentong Mo,
- Abstract要約: 3次元点雲生成に適した新しい拡散アーキテクチャーDiffusion Mamba (DiM-3D)を提案する。
DiM-3Dは従来の注意機構を捨て、代わりにMambaアーキテクチャの本質的な効率を利用して、シーケンス長に関する線形複雑性を維持する。
ShapeNetベンチマークによる実験結果から、DEM-3Dは高忠実で多様な3D形状を生成する上で、最先端の性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 16.05598829701769
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in sequence modeling have led to the development of the Mamba architecture, noted for its selective state space approach, offering a promising avenue for efficient long sequence handling. However, its application in 3D shape generation, particularly at high resolutions, remains underexplored. Traditional diffusion transformers (DiT) with self-attention mechanisms, despite their potential, face scalability challenges due to the cubic complexity of attention operations as input length increases. This complexity becomes a significant hurdle when dealing with high-resolution voxel sizes. To address this challenge, we introduce a novel diffusion architecture tailored for 3D point clouds generation-Diffusion Mamba (DiM-3D). This architecture forgoes traditional attention mechanisms, instead utilizing the inherent efficiency of the Mamba architecture to maintain linear complexity with respect to sequence length. DiM-3D is characterized by fast inference times and substantially lower computational demands, quantified in reduced Gflops, thereby addressing the key scalability issues of prior models. Our empirical results on the ShapeNet benchmark demonstrate that DiM-3D achieves state-of-the-art performance in generating high-fidelity and diverse 3D shapes. Additionally, DiM-3D shows superior capabilities in tasks like 3D point cloud completion. This not only proves the model's scalability but also underscores its efficiency in generating detailed, high-resolution voxels necessary for advanced 3D shape modeling, particularly excelling in environments requiring high-resolution voxel sizes. Through these findings, we illustrate the exceptional scalability and efficiency of the Diffusion Mamba framework in 3D shape generation, setting a new standard for the field and paving the way for future explorations in high-resolution 3D modeling technologies.
- Abstract(参考訳): シークエンスモデリングの最近の進歩は、選択的な状態空間アプローチで知られ、効率的なロングシーケンスハンドリングのための有望な道を提供するMambaアーキテクチャの開発につながっている。
しかし、特に高解像度の3次元形状生成におけるその応用は、まだ未定である。
自己アテンション機構を持つ従来の拡散トランスフォーマー(DiT)は、その可能性にもかかわらず、入力長が増加するにつれて注意操作の3乗複雑さのためにスケーラビリティの課題に直面している。
この複雑さは、高解像度のボクセルサイズを扱う際に重要なハードルとなる。
この課題に対処するため、3次元点雲生成のための新しい拡散アーキテクチャDiffusion Mamba (DiM-3D)を提案する。
このアーキテクチャは伝統的な注意機構を保ち、代わりにMambaアーキテクチャの本質的な効率を活用して、シーケンス長に関する線形複雑性を維持する。
DiM-3D は高速な推論時間と、Gflops の量子化による計算要求の大幅な低減により特徴付けられる。
ShapeNetベンチマークによる実験結果から、DEM-3Dは高忠実で多様な3D形状を生成する上で、最先端の性能を発揮することが示された。
さらに、DiM-3Dは3Dポイントクラウド補完のようなタスクにおいて優れた機能を示している。
これはモデルのスケーラビリティを証明しているだけでなく、高度な3次元形状モデリングに必要な詳細で高解像度のボクセルを生成する効率、特に高解像度のボクセルサイズを必要とする環境では優れています。
これらの結果から,Diffusion Mambaフレームワークの3次元形状生成における優れたスケーラビリティと効率性を示し,フィールドの新たな標準を設定し,高解像度3次元モデリング技術における今後の探索の道を開く。
関連論文リスト
- GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation [75.39457097832113]
本稿では,インタラクティブなポイントクラウド構造ラテント空間を備えたスケーラブルで高品質な3D生成を実現する,新しい3D生成フレームワークを提案する。
本フレームワークでは,複数ビューのRGB-D(epth)-N(ormal)レンダリングを入力として使用する変分オートエンコーダを,3次元形状情報を保存する独自のラテント空間設計を用いて構成する。
提案手法であるGaussianAnythingは,複数モード条件付き3D生成をサポートし,ポイントクラウド,キャプション,シングル/マルチビュー画像入力を可能にする。
論文 参考訳(メタデータ) (2024-11-12T18:59:32Z) - OccLoff: Learning Optimized Feature Fusion for 3D Occupancy Prediction [5.285847977231642]
3Dセマンティック占有予測は、自動運転の安全性を確保するために不可欠である。
既存のフュージョンベースの占有法では、画像の特徴に対して2次元から3次元のビュー変換を行うのが一般的である。
OccLoffは3次元占有予測のためにFeature Fusionを最適化するフレームワークである。
論文 参考訳(メタデータ) (2024-11-06T06:34:27Z) - Diffusion Models in 3D Vision: A Survey [11.116658321394755]
本稿では,3次元視覚タスクの拡散モデルを利用する最先端のアプローチについて概説する。
これらのアプローチには、3Dオブジェクト生成、形状補完、点雲再構成、シーン理解が含まれる。
本稿では,計算効率の向上,マルチモーダル融合の強化,大規模事前学習の活用などの可能性について論じる。
論文 参考訳(メタデータ) (2024-10-07T04:12:23Z) - MonoMM: A Multi-scale Mamba-Enhanced Network for Real-time Monocular 3D Object Detection [9.780498146964097]
リアルタイムモノクロ3Dオブジェクト検出のための革新的なネットワークアーキテクチャであるMonoMMを提案する。
MonoMM は Focused Multi-Scale Fusion (FMF) と Depth-Aware Feature Enhancement Mamba (DMB) モジュールで構成されている。
提案手法は,従来の単分子法よりも優れ,リアルタイム検出を実現する。
論文 参考訳(メタデータ) (2024-08-01T10:16:58Z) - DiffTF++: 3D-aware Diffusion Transformer for Large-Vocabulary 3D Generation [53.20147419879056]
拡散型フィードフォワードフレームワークを導入し,単一モデルで課題に対処する。
TransFormerを用いた3D対応拡散モデルを構築し,より強力な3D生成,すなわちDiffTF++を提案する。
ShapeNetとOmniObject3Dの実験は、提案したモジュールの有効性を確実に実証している。
論文 参考訳(メタデータ) (2024-05-13T17:59:51Z) - LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation [73.36690511083894]
本稿では,LN3Diffと呼ばれる新しいフレームワークを導入し,統一された3次元拡散パイプラインに対処する。
提案手法では,3次元アーキテクチャと変分オートエンコーダを用いて,入力画像を構造化されたコンパクトな3次元潜在空間に符号化する。
3次元生成のためのShapeNetの最先端性能を実現し,モノクロ3次元再構成と条件付き3次元生成において優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-18T17:54:34Z) - Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability [118.26563926533517]
自己回帰モデルでは,格子空間における関節分布をモデル化することにより,2次元画像生成において顕著な結果が得られた。
自動回帰モデルを3次元領域に拡張し,キャパシティとスケーラビリティを同時に向上することにより,3次元形状生成の強力な能力を求める。
論文 参考訳(メタデータ) (2024-02-19T15:33:09Z) - Pushing the Limits of 3D Shape Generation at Scale [65.24420181727615]
我々は、前例のない次元に拡大することで、3次元形状生成において画期的なブレークスルーを示す。
現在までに最大の3次元形状生成モデルとしてArgus-3Dが確立されている。
論文 参考訳(メタデータ) (2023-06-20T13:01:19Z) - Deep Generative Models on 3D Representations: A Survey [81.73385191402419]
生成モデルは、新しいインスタンスを生成することによって観測データの分布を学習することを目的としている。
最近、研究者は焦点を2Dから3Dにシフトし始めた。
3Dデータの表現は、非常に大きな課題をもたらします。
論文 参考訳(メタデータ) (2022-10-27T17:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。