Fugu-MT 論文翻訳(概要): Efficient 3D Shape Generation via Diffusion Mamba with Bidirectional SSMs

論文の概要: Efficient 3D Shape Generation via Diffusion Mamba with Bidirectional SSMs

arxiv url: http://arxiv.org/abs/2406.05038v1
Date: Fri, 7 Jun 2024 16:02:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-10 13:22:27.806546
Title: Efficient 3D Shape Generation via Diffusion Mamba with Bidirectional SSMs
Title（参考訳）: 双方向SSMを用いた拡散マンバによる高効率3次元形状生成
Authors: Shentong Mo,
Abstract要約: 3次元点雲生成に適した新しい拡散アーキテクチャーDiffusion Mamba (DiM-3D)を提案する。 DiM-3Dは従来の注意機構を捨て、代わりにMambaアーキテクチャの本質的な効率を利用して、シーケンス長に関する線形複雑性を維持する。 ShapeNetベンチマークによる実験結果から、DEM-3Dは高忠実で多様な3D形状を生成する上で、最先端の性能を発揮することが示された。
参考スコア（独自算出の注目度）: 16.05598829701769
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in sequence modeling have led to the development of the Mamba architecture, noted for its selective state space approach, offering a promising avenue for efficient long sequence handling. However, its application in 3D shape generation, particularly at high resolutions, remains underexplored. Traditional diffusion transformers (DiT) with self-attention mechanisms, despite their potential, face scalability challenges due to the cubic complexity of attention operations as input length increases. This complexity becomes a significant hurdle when dealing with high-resolution voxel sizes. To address this challenge, we introduce a novel diffusion architecture tailored for 3D point clouds generation-Diffusion Mamba (DiM-3D). This architecture forgoes traditional attention mechanisms, instead utilizing the inherent efficiency of the Mamba architecture to maintain linear complexity with respect to sequence length. DiM-3D is characterized by fast inference times and substantially lower computational demands, quantified in reduced Gflops, thereby addressing the key scalability issues of prior models. Our empirical results on the ShapeNet benchmark demonstrate that DiM-3D achieves state-of-the-art performance in generating high-fidelity and diverse 3D shapes. Additionally, DiM-3D shows superior capabilities in tasks like 3D point cloud completion. This not only proves the model's scalability but also underscores its efficiency in generating detailed, high-resolution voxels necessary for advanced 3D shape modeling, particularly excelling in environments requiring high-resolution voxel sizes. Through these findings, we illustrate the exceptional scalability and efficiency of the Diffusion Mamba framework in 3D shape generation, setting a new standard for the field and paving the way for future explorations in high-resolution 3D modeling technologies.
Abstract（参考訳）: シークエンスモデリングの最近の進歩は、選択的な状態空間アプローチで知られ、効率的なロングシーケンスハンドリングのための有望な道を提供するMambaアーキテクチャの開発につながっている。しかし、特に高解像度の3次元形状生成におけるその応用は、まだ未定である。自己アテンション機構を持つ従来の拡散トランスフォーマー(DiT)は、その可能性にもかかわらず、入力長が増加するにつれて注意操作の3乗複雑さのためにスケーラビリティの課題に直面している。この複雑さは、高解像度のボクセルサイズを扱う際に重要なハードルとなる。この課題に対処するため、3次元点雲生成のための新しい拡散アーキテクチャDiffusion Mamba (DiM-3D)を提案する。このアーキテクチャは伝統的な注意機構を保ち、代わりにMambaアーキテクチャの本質的な効率を活用して、シーケンス長に関する線形複雑性を維持する。 DiM-3D は高速な推論時間と、Gflops の量子化による計算要求の大幅な低減により特徴付けられる。 ShapeNetベンチマークによる実験結果から、DEM-3Dは高忠実で多様な3D形状を生成する上で、最先端の性能を発揮することが示された。さらに、DiM-3Dは3Dポイントクラウド補完のようなタスクにおいて優れた機能を示している。これはモデルのスケーラビリティを証明しているだけでなく、高度な3次元形状モデリングに必要な詳細で高解像度のボクセルを生成する効率、特に高解像度のボクセルサイズを必要とする環境では優れています。これらの結果から,Diffusion Mambaフレームワークの3次元形状生成における優れたスケーラビリティと効率性を示し,フィールドの新たな標準を設定し,高解像度3次元モデリング技術における今後の探索の道を開く。

関連論文リスト

Ultra3D: Efficient and High-Fidelity 3D Generation with Part Attention [54.15345846343084]
品質を損なうことなくスパースボクセルモデリングを大幅に高速化する,効率的な3D生成フレームワークであるUltra3Dを提案する。部分注意(Part Attention)は、意味的に一貫した部分領域内での注意計算を制限する幾何学的な局所的注意機構である。実験により、Ultra3Dは1024の解像度で高解像度の3D生成をサポートし、視覚的忠実度とユーザの好みの両方で最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-07-23T17:57:16Z)
LTM3D: Bridging Token Spaces for Conditional 3D Generation with Auto-Regressive Diffusion Framework [40.17218893870908]
LTM3Dは条件付き3次元形状生成のための潜在トークン空間モデリングフレームワークである。拡散と自己回帰(Auto-Regressive、AR)モデルの強みを統合する。 LTM3Dはマルチモーダル・マルチ表現3D生成のための一般化可能なフレームワークを提供する。
論文参考訳（メタデータ） (2025-05-30T06:08:45Z)
MAR-3D: Progressive Masked Auto-regressor for High-Resolution 3D Generation [44.94438766074643]
ピラミッド変分オートエンコーダとカスケードマスク自動回帰変換器を統合したMAR-3Dを提案する。我々のアーキテクチャは、トレーニング中にランダムマスキングを採用し、推論中にランダムな順序で自動回帰化を行い、自然に3D潜在トークンの無秩序な性質を調節する。
論文参考訳（メタデータ） (2025-03-26T13:00:51Z)
TripoSG: High-Fidelity 3D Shape Synthesis using Large-Scale Rectified Flow Models [69.0220314849478]
TripoSGは、入力画像に正確に対応した高忠実度3Dメッシュを生成することができる新しい合理化形状拡散パラダイムである。結果として得られた3D形状は、高解像度の能力によって細部が強化され、入力画像に異常な忠実さを示す。 3Dジェネレーションの分野における進歩と革新を促進するため、我々はモデルを一般公開する。
論文参考訳（メタデータ） (2025-02-10T16:07:54Z)
3D-MoE: A Mixture-of-Experts Multi-modal LLM for 3D Vision and Pose Diffusion via Rectified Flow [69.94527569577295]
3次元の視覚と空間的推論は、長い間、我々の3次元の世界を正確に知覚するのに好ましいと認識されてきた。高品質な3Dデータ収集の難しさから,近年,この領域の研究が勢いを増している。我々は,既存の高密度活性化LDMをマルチモーダルデータ処理に有効であることが証明されたMix-of-experts(MoE)モデルに変換することを提案する。
論文参考訳（メタデータ） (2025-01-28T04:31:19Z)
Taming Feed-forward Reconstruction Models as Latent Encoders for 3D Generative Models [7.485139478358133]
最近のAIベースの3Dコンテンツ作成は、フィードフォワード画像から3Dへの再構成アプローチと、2Dまたは3D監視でトレーニングされた3D生成モデルという、2つの経路に沿って大きく進化している。本稿では,既存のフィードフォワード再構成手法が3次元生成モデルのトレーニングに有効な潜伏エンコーダとして有効であることを示し,これら2つのパラダイムをブリッジする。
論文参考訳（メタデータ） (2024-12-31T21:23:08Z)
3D-WAG: Hierarchical Wavelet-Guided Autoregressive Generation for High-Fidelity 3D Shapes [20.675695749508353]
本研究では,非条件形状生成が可能な3次元暗黙距離場のためのARモデルである3D-WAGを紹介する。 3次元AR生成タスクを次のスケールの予測として再定義することにより、生成の計算コストを削減できる。以上の結果から,3D-WAGはCoverageやMDといった重要な指標において優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-11-28T10:33:01Z)
GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation [75.39457097832113]
本稿では,インタラクティブなポイントクラウド構造ラテント空間を備えたスケーラブルで高品質な3D生成を実現する,新しい3D生成フレームワークを提案する。本フレームワークでは,複数ビューのRGB-D(epth)-N(ormal)レンダリングを入力として使用する変分オートエンコーダを,3次元形状情報を保存する独自のラテント空間設計を用いて構成する。提案手法であるGaussianAnythingは,複数モード条件付き3D生成をサポートし,ポイントクラウド,キャプション,シングル/マルチビュー画像入力を可能にする。
論文参考訳（メタデータ） (2024-11-12T18:59:32Z)
OccLoff: Learning Optimized Feature Fusion for 3D Occupancy Prediction [5.285847977231642]
3Dセマンティック占有予測は、自動運転の安全性を確保するために不可欠である。既存のフュージョンベースの占有法では、画像の特徴に対して2次元から3次元のビュー変換を行うのが一般的である。 OccLoffは3次元占有予測のためにFeature Fusionを最適化するフレームワークである。
論文参考訳（メタデータ） (2024-11-06T06:34:27Z)
Diffusion Models in 3D Vision: A Survey [11.116658321394755]
本稿では,3次元視覚タスクの拡散モデルを利用する最先端のアプローチについて概説する。これらのアプローチには、3Dオブジェクト生成、形状補完、点雲再構成、シーン理解が含まれる。本稿では,計算効率の向上,マルチモーダル融合の強化,大規模事前学習の活用などの可能性について論じる。
論文参考訳（メタデータ） (2024-10-07T04:12:23Z)
MonoMM: A Multi-scale Mamba-Enhanced Network for Real-time Monocular 3D Object Detection [9.780498146964097]
リアルタイムモノクロ3Dオブジェクト検出のための革新的なネットワークアーキテクチャであるMonoMMを提案する。 MonoMM は Focused Multi-Scale Fusion (FMF) と Depth-Aware Feature Enhancement Mamba (DMB) モジュールで構成されている。提案手法は,従来の単分子法よりも優れ,リアルタイム検出を実現する。
論文参考訳（メタデータ） (2024-08-01T10:16:58Z)
DiffTF++: 3D-aware Diffusion Transformer for Large-Vocabulary 3D Generation [53.20147419879056]
拡散型フィードフォワードフレームワークを導入し,単一モデルで課題に対処する。 TransFormerを用いた3D対応拡散モデルを構築し,より強力な3D生成,すなわちDiffTF++を提案する。 ShapeNetとOmniObject3Dの実験は、提案したモジュールの有効性を確実に実証している。
論文参考訳（メタデータ） (2024-05-13T17:59:51Z)
LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation [73.36690511083894]
本稿では,LN3Diffと呼ばれる新しいフレームワークを導入し,統一された3次元拡散パイプラインに対処する。提案手法では,3次元アーキテクチャと変分オートエンコーダを用いて,入力画像を構造化されたコンパクトな3次元潜在空間に符号化する。 3次元生成のためのShapeNetの最先端性能を実現し,モノクロ3次元再構成と条件付き3次元生成において優れた性能を示す。
論文参考訳（メタデータ） (2024-03-18T17:54:34Z)
Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability [118.26563926533517]
自己回帰モデルでは,格子空間における関節分布をモデル化することにより,2次元画像生成において顕著な結果が得られた。自動回帰モデルを3次元領域に拡張し,キャパシティとスケーラビリティを同時に向上することにより,3次元形状生成の強力な能力を求める。
論文参考訳（メタデータ） (2024-02-19T15:33:09Z)
Pushing the Limits of 3D Shape Generation at Scale [65.24420181727615]
我々は、前例のない次元に拡大することで、3次元形状生成において画期的なブレークスルーを示す。現在までに最大の3次元形状生成モデルとしてArgus-3Dが確立されている。
論文参考訳（メタデータ） (2023-06-20T13:01:19Z)
Deep Generative Models on 3D Representations: A Survey [81.73385191402419]
生成モデルは、新しいインスタンスを生成することによって観測データの分布を学習することを目的としている。最近、研究者は焦点を2Dから3Dにシフトし始めた。 3Dデータの表現は、非常に大きな課題をもたらします。
論文参考訳（メタデータ） (2022-10-27T17:59:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。