論文の概要: MambaBEV: An efficient 3D detection model with Mamba2
- arxiv url: http://arxiv.org/abs/2410.12673v2
- Date: Fri, 28 Mar 2025 03:22:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 18:43:46.460785
- Title: MambaBEV: An efficient 3D detection model with Mamba2
- Title(参考訳): MambaBEV:Mamba2を用いた効率的な3D検出モデル
- Authors: Zihan You, Ni Wang, Hao Wang, Qichao Zhao, Jinxiang Wang,
- Abstract要約: MambaBEVは、長いシーケンス処理に最適化された高度な状態空間モデル(SSM)であるMamba2を利用する、BEVベースの3Dオブジェクト検出モデルである。
マンバBEVベースのNDSは51.7%、mAPは42.7%である。
本研究は, 自律運転知覚におけるSSMの可能性, 特に大域的文脈理解と大規模物体検出の強化について明らかにした。
- 参考スコア(独自算出の注目度): 4.667459324253689
- License:
- Abstract: Accurate 3D object detection in autonomous driving relies on Bird's Eye View (BEV) perception and effective temporal fusion.However, existing fusion strategies based on convolutional layers or deformable self attention struggle with global context modeling in BEV space,leading to lower accuracy for large objects. To address this, we introduce MambaBEV, a novel BEV based 3D object detection model that leverages Mamba2, an advanced state space model (SSM) optimized for long sequence processing.Our key contribution is TemporalMamba, a temporal fusion module that enhances global awareness by introducing a BEV feature discrete rearrangement mechanism tailored for Mamba's sequential processing. Additionally, we propose Mamba based DETR as the detection head to improve multi object representation.Evaluations on the nuScenes dataset demonstrate that MambaBEV base achieves an NDS of 51.7\% and an mAP of 42.7\%.Furthermore, an end to end autonomous driving paradigm validates its effectiveness in motion forecasting and planning.Our results highlight the potential of SSMs in autonomous driving perception, particularly in enhancing global context understanding and large object detection.
- Abstract(参考訳): 自律走行における正確な3次元物体検出は,Bird's Eye View (BEV) の知覚と有効時間融合に依存している。しかしながら,既存の畳み込み層に基づく融合戦略や,BEV空間におけるグローバルコンテキストモデリングによる変形可能な自己注意戦略は,大きな物体の精度を低下させる。
そこで本研究では,長いシーケンス処理に最適化された高度状態空間モデル(SSM)であるMamba2を活用する,新しいBEVベースの3次元オブジェクト検出モデルであるMambaBEVを紹介する。
さらに,マルチオブジェクト表現を改善するための検出ヘッドとして,MambaベースDETRを提案する。このnuScenesデータセットを用いて,MambaBEVベースが51.7\%,mAP42.7\%を達成することを示す。
さらに、エンド・ツー・エンドの自律運転パラダイムは、運動予測と計画におけるその効果を検証し、我々の結果は、特にグローバルな文脈理解と大規模物体検出の強化において、自律運転知覚におけるSSMの可能性を強調した。
関連論文リスト
- Revisiting Birds Eye View Perception Models with Frozen Foundation Models: DINOv2 and Metric3Dv2 [6.42131197643513]
我々は,Metric3Dv2の深度情報を,Simple-BEVアーキテクチャに組み込まれたPseudoLiDARポイントクラウドとして,革新的な応用を紹介した。
この統合により、カメラのみのモデルに比べて+3 IoUが改善される。
論文 参考訳(メタデータ) (2025-01-14T13:51:14Z) - The Mamba in the Llama: Distilling and Accelerating Hybrid Models [76.64055251296548]
注目層からの線形射影重みを学術的なGPU資源で再利用することにより,大規模な変換器を線形RNNに蒸留する方法を示す。
結果として得られたハイブリッドモデルは、チャットベンチマークのオリジナルのTransformerに匹敵するパフォーマンスを達成する。
また,Mambaとハイブリッドモデルの推論速度を高速化するハードウェア対応投機的復号アルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-08-27T17:56:11Z) - BEVWorld: A Multimodal World Model for Autonomous Driving via Unified BEV Latent Space [57.68134574076005]
BEVWorldは,マルチモーダルセンサの入力を,環境モデリングのための統一的でコンパクトなBird's Eye View潜在空間にトークン化する手法である。
実験は、自律走行タスクにおけるBEVWorldの有効性を示し、将来のシーンを生成する能力を示し、知覚や動き予測のような下流タスクに恩恵を与える。
論文 参考訳(メタデータ) (2024-07-08T07:26:08Z) - QD-BEV : Quantization-aware View-guided Distillation for Multi-view 3D
Object Detection [57.019527599167255]
BEV (bird-eye-view) に基づく多視点3D検出は、最近大幅に改善されている。
本稿では,BEVタスクに量子化を直接適用することで,トレーニングが不安定になり,性能劣化が許容できないことを示す。
QD-BEVにより,新しいビュー誘導蒸留(VGD)の目標が実現され,QAT(量子化対応トレーニング)の安定化が図られ,モデル性能が向上する。
論文 参考訳(メタデータ) (2023-08-21T07:06:49Z) - Knowledge Distillation from 3D to Bird's-Eye-View for LiDAR Semantic
Segmentation [6.326177388323946]
本研究では,3次元ボクセルモデルからBEVモデルへ豊富な知識を伝達する有効な3D-to-BEV知識蒸留法を開発した。
本フレームワークは,主にボクセル-ピラー蒸留モジュールとラベル-重蒸留モジュールの2つのモジュールから構成される。
ラベル重量の蒸留は、より高い情報を持つ領域により注意を払うのに役立つ。
論文 参考訳(メタデータ) (2023-04-22T13:03:19Z) - DiffBEV: Conditional Diffusion Model for Bird's Eye View Perception [14.968177102647783]
そこで我々は,より包括的なBEV表現を生成するために拡散モデルの可能性を活用するために,DiffBEVというエンドツーエンドフレームワークを提案する。
実際に,粗いサンプルを識別し,意味的特徴を洗練する拡散モデルの訓練を指導する3種類の条件を設計する。
DiffBEV が nuScenes データセット上で 25.9% mIoU を達成することを示す。
論文 参考訳(メタデータ) (2023-03-15T02:42:48Z) - BEV-MAE: Bird's Eye View Masked Autoencoders for Point Cloud
Pre-training in Autonomous Driving Scenarios [51.285561119993105]
自律運転におけるLiDARに基づく3Dオブジェクト検出のための,効率的なマスク付きオートエンコーダ事前学習フレームワークであるBEV-MAEを提案する。
具体的には、3Dエンコーダ学習特徴表現を導くために,鳥の目視(BEV)誘導マスキング戦略を提案する。
学習可能なポイントトークンを導入し、3Dエンコーダの一貫性のある受容的フィールドサイズを維持する。
論文 参考訳(メタデータ) (2022-12-12T08:15:03Z) - Probabilistic Modeling for Human Mesh Recovery [73.11532990173441]
本稿では,2次元の証拠から3次元の人体復元の問題に焦点を当てた。
我々は,この問題を,入力から3Dポーズの分布へのマッピング学習として再考した。
論文 参考訳(メタデータ) (2021-08-26T17:55:11Z) - SA-Det3D: Self-Attention Based Context-Aware 3D Object Detection [9.924083358178239]
本稿では,3次元物体検出におけるコンテキストモデリングのための2種類の自己注意法を提案する。
まず,現状のbev,voxel,ポイントベース検出器にペアワイズ自着機構を組み込む。
次に,ランダムにサンプリングされた位置の変形を学習することにより,最も代表的な特徴のサブセットをサンプリングするセルフアテンション変種を提案する。
論文 参考訳(メタデータ) (2021-01-07T18:30:32Z) - PerMO: Perceiving More at Once from a Single Image for Autonomous
Driving [76.35684439949094]
単一画像から完全テクスチャ化された車両の3次元モデルを検出し,セグメント化し,再構成する新しい手法を提案する。
私たちのアプローチは、ディープラーニングの強みと従来のテクニックの優雅さを組み合わせています。
我々はこれらのアルゴリズムを自律運転システムに統合した。
論文 参考訳(メタデータ) (2020-07-16T05:02:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。