論文の概要: MambaFlow: A Novel and Flow-guided State Space Model for Scene Flow Estimation
- arxiv url: http://arxiv.org/abs/2502.16907v1
- Date: Mon, 24 Feb 2025 07:05:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:57:38.043305
- Title: MambaFlow: A Novel and Flow-guided State Space Model for Scene Flow Estimation
- Title(参考訳): MambaFlow: シーンフロー推定のための新しい,フロー誘導状態空間モデル
- Authors: Jiehao Luo, Jintao Cheng, Xiaoyu Tang, Qingwen Zhang, Bohuan Xue, Rui Fan,
- Abstract要約: 本稿では,マンバに基づくデコーダを用いたシーンフロー推定ネットワークであるマンバを提案する。
MambaFlowは、既存の作業間でリアルタイム推論速度で最先端のパフォーマンスを実現する。
Argoverse 2ベンチマークの実験は、MambaFlowがリアルタイムの推論速度で最先端のパフォーマンスを達成することを示した。
- 参考スコア(独自算出の注目度): 5.369567679302849
- License:
- Abstract: Scene flow estimation aims to predict 3D motion from consecutive point cloud frames, which is of great interest in autonomous driving field. Existing methods face challenges such as insufficient spatio-temporal modeling and inherent loss of fine-grained feature during voxelization. However, the success of Mamba, a representative state space model (SSM) that enables global modeling with linear complexity, provides a promising solution. In this paper, we propose MambaFlow, a novel scene flow estimation network with a mamba-based decoder. It enables deep interaction and coupling of spatio-temporal features using a well-designed backbone. Innovatively, we steer the global attention modeling of voxel-based features with point offset information using an efficient Mamba-based decoder, learning voxel-to-point patterns that are used to devoxelize shared voxel representations into point-wise features. To further enhance the model's generalization capabilities across diverse scenarios, we propose a novel scene-adaptive loss function that automatically adapts to different motion patterns.Extensive experiments on the Argoverse 2 benchmark demonstrate that MambaFlow achieves state-of-the-art performance with real-time inference speed among existing works, enabling accurate flow estimation in real-world urban scenarios. The code is available at https://github.com/SCNU-RISLAB/MambaFlow.
- Abstract(参考訳): シーンフロー推定は、自律走行場に大きな関心を持つ連続点雲フレームから3次元運動を予測することを目的としている。
既存の手法では、時空間モデリングが不十分なことや、酸素化時に微細な特徴が本質的に失われることといった課題に直面している。
しかし、線形複雑性を伴うグローバルモデリングを可能にする代表状態空間モデル(SSM)であるMambaの成功は、有望なソリューションを提供する。
本稿では,マンバ型デコーダを用いたシーンフロー推定ネットワークであるマンバフローを提案する。
うまく設計されたバックボーンを使用して、時空間的特徴の深い相互作用と結合を可能にする。
革新的に,効率的なMambaベースのデコーダを用いた点オフセット情報を用いたボクセル特徴のグローバルアテンションモデリングを行い,共有ボクセル表現をポイントワイドな特徴にデオキシ化するために使用されるボクセル・ツー・ポイントパターンを学習する。
多様なシナリオにまたがるモデルの一般化機能をさらに強化するために,異なる動きパターンに自動的に適応する新たなシーン適応型損失関数を提案する。Argoverse 2ベンチマークの総合的な実験により,MambaFlowが既存の作業間でリアルタイムの推論速度で最先端のパフォーマンスを達成し,現実の都市シナリオにおける正確なフロー推定を実現することが実証された。
コードはhttps://github.com/SCNU-RISLAB/MambaFlowで入手できる。
関連論文リスト
- STNMamba: Mamba-based Spatial-Temporal Normality Learning for Video Anomaly Detection [48.997518615379995]
ビデオ異常検出(VAD)は、インテリジェントなビデオシステムの可能性から広く研究されている。
CNNやトランスフォーマーをベースとした既存の手法の多くは、依然としてかなりの計算負荷に悩まされている。
空間的時間的正規性の学習を促進するために,STNMambaという軽量で効果的なネットワークを提案する。
論文 参考訳(メタデータ) (2024-12-28T08:49:23Z) - FlowMamba: Learning Point Cloud Scene Flow with Global Motion Propagation [14.293476753863272]
本研究では,フローマンバという,グローバルな動き伝搬を伴うシーンフロー推定ネットワークを提案する。
FlowMambaはFlyingThings3DおよびKITTIデータセットにおいてミリレベルの予測精度を実現する最初の方法である。
論文 参考訳(メタデータ) (2024-12-23T08:03:59Z) - MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - SIGMA: Selective Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。
SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。
以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T09:12:59Z) - MambaVT: Spatio-Temporal Contextual Modeling for robust RGB-T Tracking [51.28485682954006]
本研究では,マンバをベースとした純フレームワーク(MambaVT)を提案する。
具体的には、長距離クロスフレーム統合コンポーネントを考案し、ターゲットの外観変化にグローバルに適応する。
実験では、RGB-TトラッキングのためのMambaのビジョンの可能性が示され、MambaVTは4つの主要なベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-08-15T02:29:00Z) - DiM-Gesture: Co-Speech Gesture Generation with Adaptive Layer Normalization Mamba-2 framework [2.187990941788468]
生音声のみから、高度にパーソナライズされた3Dフルボディジェスチャーを作成するために作られた生成モデル。
Modelは、Mambaベースのファジィ特徴抽出器と非自己回帰適応層正規化(AdaLN)Mamba-2拡散アーキテクチャを統合している。
論文 参考訳(メタデータ) (2024-08-01T08:22:47Z) - Mamba3D: Enhancing Local Features for 3D Point Cloud Analysis via State Space Model [18.30032389736101]
状態空間モデル(SSM)に基づくMambaモデルは、線形複雑性のみを持つ複数の領域でTransformerより優れている。
我々は,局所的特徴抽出を強化するために,ポイントクラウド学習に適した状態空間モデルであるMamba3Dを提案する。
論文 参考訳(メタデータ) (2024-04-23T12:20:27Z) - Point Cloud Mamba: Point Cloud Learning via State Space Model [73.7454734756626]
我々は,マンバをベースとしたポイントクラウド法が,トランスフォーマや多層パーセプトロン(MLP)に基づく従来手法よりも優れていることを示す。
特に,マルチ層パーセプトロン(MLP)を用いて,マンバをベースとした点雲法が従来手法より優れていることを示す。
Point Cloud Mambaは、最先端(SOTA)のポイントベースメソッドであるPointNeXtを超え、ScanNN、ModelNet40、ShapeNetPart、S3DISデータセット上での新たなSOTAパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-03-01T18:59:03Z) - PointMamba: A Simple State Space Model for Point Cloud Analysis [65.59944745840866]
我々は、最近の代表的状態空間モデル(SSM)であるMambaの成功を、NLPからポイントクラウド分析タスクへ転送するPointMambaを提案する。
従来のトランスフォーマーとは異なり、PointMambaは線形複雑性アルゴリズムを採用し、グローバルなモデリング能力を示しながら計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-02-16T14:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。