論文の概要: TFDM: Time-Variant Frequency-Based Point Cloud Diffusion with Mamba
- arxiv url: http://arxiv.org/abs/2503.13004v1
- Date: Mon, 17 Mar 2025 10:00:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:30:27.002431
- Title: TFDM: Time-Variant Frequency-Based Point Cloud Diffusion with Mamba
- Title(参考訳): TFDM:Mambaによる時間可変周波数ベースのポイントクラウド拡散
- Authors: Jiaxu Liu, Li Li, Hubert P. H. Shum, Toby P. Breckon,
- Abstract要約: 拡散モデルは現在、様々な生成タスクに対して印象的なパフォーマンスを示している。
画像拡散に関する最近の研究は,マンバ(状態空間モデル)の強みを強調している
本稿では,2つの遅延Mambaブロック(DM-Block)と時間変動周波数エンコーダ(TF-Encoder)を含む新しい拡散フレームワークを提案する。
- 参考スコア(独自算出の注目度): 20.941775037488863
- License:
- Abstract: Diffusion models currently demonstrate impressive performance over various generative tasks. Recent work on image diffusion highlights the strong capabilities of Mamba (state space models) due to its efficient handling of long-range dependencies and sequential data modeling. Unfortunately, joint consideration of state space models with 3D point cloud generation remains limited. To harness the powerful capabilities of the Mamba model for 3D point cloud generation, we propose a novel diffusion framework containing dual latent Mamba block (DM-Block) and a time-variant frequency encoder (TF-Encoder). The DM-Block apply a space-filling curve to reorder points into sequences suitable for Mamba state-space modeling, while operating in a latent space to mitigate the computational overhead that arises from direct 3D data processing. Meanwhile, the TF-Encoder takes advantage of the ability of the diffusion model to refine fine details in later recovery stages by prioritizing key points within the U-Net architecture. This frequency-based mechanism ensures enhanced detail quality in the final stages of generation. Experimental results on the ShapeNet-v2 dataset demonstrate that our method achieves state-of-the-art performance (ShapeNet-v2: 0.14\% on 1-NNA-Abs50 EMD and 57.90\% on COV EMD) on certain metrics for specific categories while reducing computational parameters and inference time by up to 10$\times$ and 9$\times$, respectively. Source code is available in Supplementary Materials and will be released upon accpetance.
- Abstract(参考訳): 拡散モデルは現在、様々な生成タスクに対して印象的なパフォーマンスを示している。
画像拡散に関する最近の研究は、長距離依存関係の効率的な処理とシーケンシャルなデータモデリングにより、Mamba(状態空間モデル)の強みを強調している。
残念なことに、状態空間モデルと3Dポイントクラウド生成の併用は依然として限られている。
3Dポイントクラウド生成のためのMambaモデルの強力な機能を活用するために,2つの遅延Mambaブロック(DM-Block)と時間変動周波数エンコーダ(TF-Encoder)を含む新しい拡散フレームワークを提案する。
DM-Blockは、空間充填曲線を適用して、Mamba状態空間モデリングに適した列に点を並べ替える一方で、直接3Dデータ処理から生じる計算オーバーヘッドを軽減するために、潜時空間で操作する。
一方、TF-Encoderは拡散モデルの利点を生かし、U-Netアーキテクチャ内のキーポイントを優先順位付けすることで、後続のリカバリ段階で細部を精細化することができる。
この周波数ベースのメカニズムは、生成の最終段階における詳細品質の向上を保証する。
また,ShapeNet-v2データセットを用いた実験結果から,計算パラメータと推定時間を最大10$\times$と9$\times$に減らしながら,特定のカテゴリの指標に対して1-NNA-Abs50 EMDで0.14\%,COV EMDで57.90\%を実現した。
ソースコードはSupplementary Materialsで入手でき、アクセプタンスでリリースされる。
関連論文リスト
- Skip Mamba Diffusion for Monocular 3D Semantic Scene Completion [24.4023135536433]
3Dセマンティックシーンの補完は、自律システムにおける複数の下流タスクに不可欠である。
状態空間の進歩と拡散生成モデルを利用した独自のニューラルモデルを提案する。
本手法は単眼画像入力による3次元セマンティックシーン補完性能を実現する。
論文 参考訳(メタデータ) (2025-01-13T12:18:58Z) - STNMamba: Mamba-based Spatial-Temporal Normality Learning for Video Anomaly Detection [48.997518615379995]
ビデオ異常検出(VAD)は、インテリジェントなビデオシステムの可能性から広く研究されている。
CNNやトランスフォーマーをベースとした既存の手法の多くは、依然としてかなりの計算負荷に悩まされている。
空間的時間的正規性の学習を促進するために,STNMambaという軽量で効果的なネットワークを提案する。
論文 参考訳(メタデータ) (2024-12-28T08:49:23Z) - NIMBA: Towards Robust and Principled Processing of Point Clouds With SSMs [9.978766637766373]
データ複製を必要とせずに3次元空間構造を維持できる点雲を1次元配列に変換する手法を提案する。
本手法では位置埋め込みは必要とせず, 精度を保ちながら短いシーケンス長が可能である。
論文 参考訳(メタデータ) (2024-10-31T18:58:40Z) - Efficient and Scalable Point Cloud Generation with Sparse Point-Voxel Diffusion Models [6.795447206159906]
本稿では3次元生成モデルのための新しい点雲U-Net拡散アーキテクチャを提案する。
我々のネットワークは、高分解能な点表現とスパースボクセルの計算効率を組み合わせた二重分岐アーキテクチャを採用している。
我々のモデルは全てのタスクに優れており、ポイントクラウド生成モデルのための最先端の拡散U-Netとして確立されている。
論文 参考訳(メタデータ) (2024-08-12T13:41:47Z) - Pamba: Enhancing Global Interaction in Point Clouds via State Space Model [37.375866491592305]
我々は、SSMベースのアーキテクチャであるMambaをポイントクラウドドメインに導入し、線形複雑性の下で強力なグローバルモデリング機能を備えた新しいアーキテクチャであるPambaを提案する。
Pambaは、ScanNet v2、ScanNet200、S3DIS、nuScenesなど、いくつかの3Dポイントクラウドセグメンテーションタスクの最先端結果を取得する。
論文 参考訳(メタデータ) (2024-06-25T10:23:53Z) - Mamba3D: Enhancing Local Features for 3D Point Cloud Analysis via State Space Model [18.30032389736101]
状態空間モデル(SSM)に基づくMambaモデルは、線形複雑性のみを持つ複数の領域でTransformerより優れている。
我々は,局所的特徴抽出を強化するために,ポイントクラウド学習に適した状態空間モデルであるMamba3Dを提案する。
論文 参考訳(メタデータ) (2024-04-23T12:20:27Z) - Point Cloud Mamba: Point Cloud Learning via State Space Model [73.7454734756626]
我々は,マンバをベースとしたポイントクラウド法が,トランスフォーマや多層パーセプトロン(MLP)に基づく従来手法よりも優れていることを示す。
特に,マルチ層パーセプトロン(MLP)を用いて,マンバをベースとした点雲法が従来手法より優れていることを示す。
Point Cloud Mambaは、最先端(SOTA)のポイントベースメソッドであるPointNeXtを超え、ScanNN、ModelNet40、ShapeNetPart、S3DISデータセット上での新たなSOTAパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-03-01T18:59:03Z) - DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。
DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。
同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文 参考訳(メタデータ) (2023-12-01T17:01:06Z) - StarNet: Style-Aware 3D Point Cloud Generation [82.30389817015877]
StarNetは、マッピングネットワークを使用して高忠実度および3Dポイントクラウドを再構築し、生成することができる。
我々のフレームワークは、クラウドの再構築と生成タスクにおいて、様々なメトリクスで同等の最先端のパフォーマンスを達成します。
論文 参考訳(メタデータ) (2023-03-28T08:21:44Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - A Conditional Point Diffusion-Refinement Paradigm for 3D Point Cloud
Completion [69.32451612060214]
実スキャンされた3Dポイントクラウドはしばしば不完全であり、下流アプリケーションのために完全なポイントクラウドを復元することが重要である。
ほとんどの既存のポイントクラウド補完方法は、トレーニングにチャンファー距離(CD)損失を使用する。
本稿では,点雲完了のためのPDR(Point Diffusion-Refinement)パラダイムを提案する。
論文 参考訳(メタデータ) (2021-12-07T06:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。