論文の概要: Dual-Domain Homogeneous Fusion with Cross-Modal Mamba and Progressive Decoder for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2503.08992v1
- Date: Wed, 12 Mar 2025 01:55:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 21:17:52.581712
- Title: Dual-Domain Homogeneous Fusion with Cross-Modal Mamba and Progressive Decoder for 3D Object Detection
- Title(参考訳): 3次元物体検出のためのクロスモーダルマンバとプログレッシブデコーダを用いた2次元均一核融合
- Authors: Xuzhong Hu, Zaipeng Duan, Pei An, Jun zhang, Jie Ma,
- Abstract要約: 均一なBEV空間におけるLiDAR点雲の特徴と画像の特徴は、自律運転における3次元物体検出に広く採用されている。
密度の高いボクセル空間における特徴融合を探求する研究もあるが、それらは高い計算コストとクエリ生成の非効率に悩まされている。
本稿では,BEVドメインとボクセルドメインの相補的優位性を利用するDual-Domain Homogeneous Fusion Network (DDHFusion)を提案する。
- 参考スコア(独自算出の注目度): 12.77616717954945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fusing LiDAR point cloud features and image features in a homogeneous BEV space has been widely adopted for 3D object detection in autonomous driving. However, such methods are limited by the excessive compression of multi-modal features. While some works explore feature fusion in dense voxel spaces, they suffer from high computational costs and inefficiencies in query generation. To address these limitations, we propose a Dual-Domain Homogeneous Fusion network (DDHFusion), which leverages the complementary advantages of both BEV and voxel domains while mitigating their respective drawbacks. Specifically, we first transform image features into BEV and sparse voxel spaces using LSS and our proposed semantic-aware feature sampling module which can significantly reduces computational overhead by filtering unimportant voxels. For feature encoding, we design two networks for BEV and voxel feature fusion, incorporating novel cross-modal voxel and BEV Mamba blocks to resolve feature misalignment and enable efficient yet comprehensive scene perception. The output voxel features are injected into the BEV space to compensate for the loss of 3D details caused by height compression. For feature decoding, a progressive query generation module is implemented in the BEV domain to alleviate false negatives during query selection caused by feature compression and small object sizes. Finally, a progressive decoder can sequentially aggregate not only context-rich BEV features but also geometry-aware voxel features, ensuring more precise confidence prediction and bounding box regression. On the NuScenes dataset, DDHfusion achieves state-of-the-art performance, and further experiments demonstrate its superiority over other homogeneous fusion methods.
- Abstract(参考訳): 均一なBEV空間におけるLiDAR点雲の特徴と画像の特徴は、自律運転における3次元物体検出に広く採用されている。
しかし、そのような方法はマルチモーダル特徴の過剰な圧縮によって制限される。
密度の高いボクセル空間における特徴融合を探求する研究もあるが、それらは高い計算コストとクエリ生成の非効率に悩まされている。
これらの制約に対処するため、各欠点を軽減しつつ、BEVとボクセルドメインの相補的優位性を利用するDual-Domain Homogeneous Fusion Network (DDHFusion)を提案する。
具体的には,まず画像特徴量を,LSSと提案した意味認識機能サンプリングモジュールを用いて,BEVとスパースボクセル空間に変換し,重要でないボクセルをフィルタリングすることで計算オーバーヘッドを大幅に削減する。
特徴符号化のために,BEVとVoxelの機能融合のための2つのネットワークを設計し,新しいクロスモーダルなボクセルブロックとBEV Mambaブロックを組み込むことにより,特徴の不整合を解消し,効率よくかつ包括的シーン認識を可能にする。
出力ボクセル機能は、高さ圧縮による3D詳細の損失を補うために、BEV空間に注入される。
機能のデコーディングでは、プログレッシブなクエリ生成モジュールがBEVドメインに実装され、機能圧縮と小さなオブジェクトサイズによるクエリ選択時の偽陰性を軽減する。
最後に、プログレッシブデコーダは、コンテキストリッチなBEV機能だけでなく、幾何対応のボクセル機能も順次集約し、より正確な信頼性予測とバウンディングボックス回帰を保証する。
NuScenesデータセットでは、DDHfusionは最先端のパフォーマンスを達成し、他の同種核融合法よりもその優位性を示す。
関連論文リスト
- SparseVoxFormer: Sparse Voxel-based Transformer for Multi-modal 3D Object Detection [12.941263635455915]
従来の3Dオブジェクト検出手法では,Bird's Eye View (BEV) 空間を中間特徴表現として用いた。
本稿では,LiDAR点クラウドデータのスパース性に着目した。
SparseVoxFormerと呼ばれる3次元オブジェクト検出のための新しいスパースボクセルベースのトランスフォーマーネットワークを導入する。
論文 参考訳(メタデータ) (2025-03-11T06:52:25Z) - V2X-DGPE: Addressing Domain Gaps and Pose Errors for Robust Collaborative 3D Object Detection [18.694510415777632]
V2X-DGPEは高精度で堅牢なV2X特徴レベルの協調認識フレームワークである。
提案手法は既存の手法より優れ、最先端検出性能を実現する。
論文 参考訳(メタデータ) (2025-01-04T19:28:55Z) - A Hybrid Transformer-Mamba Network for Single Image Deraining [70.64069487982916]
既存のデラリング変換器では、固定レンジウィンドウやチャネル次元に沿って自己アテンション機構を採用している。
本稿では,多分岐型トランスフォーマー・マンバネットワーク(Transformer-Mamba Network,TransMamba Network,Transformer-Mamba Network)を提案する。
論文 参考訳(メタデータ) (2024-08-31T10:03:19Z) - HEAD: A Bandwidth-Efficient Cooperative Perception Approach for Heterogeneous Connected and Autonomous Vehicles [9.10239345027499]
HEADは3次元物体検出ネットワークにおける分類と回帰ヘッドの特徴を融合する手法である。
実験の結果,HEADは通信帯域幅と知覚性能を効果的にバランスさせる融合法であることがわかった。
論文 参考訳(メタデータ) (2024-08-27T22:05:44Z) - MR3D-Net: Dynamic Multi-Resolution 3D Sparse Voxel Grid Fusion for LiDAR-Based Collective Perception [0.5714074111744111]
MR3D-Netは,LiDARに基づく集団認識のための動的マルチレゾリューション3次元スパースボクセルグリッド融合バックボーンアーキテクチャである。
本研究では,様々な解像度の分散ボクセルグリッドが,通信帯域に適応できる有意義でコンパクトな環境表現を提供することを示す。
論文 参考訳(メタデータ) (2024-08-12T13:27:11Z) - BiCo-Fusion: Bidirectional Complementary LiDAR-Camera Fusion for Semantic- and Spatial-Aware 3D Object Detection [10.321117046185321]
新しいトレンドはマルチモーダル入力、すなわちLiDARとカメラを融合させることである。
LiDARの機能は詳細なセマンティック情報と格闘し、カメラは正確な3D空間情報を欠いている。
BiCo-Fusionは、ロバストなセマンティックおよび空間認識の3Dオブジェクト検出を実現する。
論文 参考訳(メタデータ) (2024-06-27T09:56:38Z) - Retain, Blend, and Exchange: A Quality-aware Spatial-Stereo Fusion Approach for Event Stream Recognition [57.74076383449153]
本稿では,差分融合によるイベントストリームに基づくパターン認識のための新しいデュアルストリームフレームワークEFV++を提案する。
イベントイメージとイベントボクセルという2つの共通のイベント表現を同時にモデル化する。
Bullying10kデータセットで新しい最先端のパフォーマンス、すなわち90.51%$を達成し、2位を+2.21%$で上回る。
論文 参考訳(メタデータ) (2024-06-27T02:32:46Z) - Eliminating Cross-modal Conflicts in BEV Space for LiDAR-Camera 3D
Object Detection [26.75994759483174]
最近の3Dオブジェクト検出器は、一般的にマルチセンサーデータを使用し、共有鳥眼ビュー(BEV)表現空間におけるマルチモーダル特徴を統一する。
従来手法では、モーダル間衝突のない融合型BEV機能の生成に制限があった。
本稿では,BEV空間における外因性/外因性衝突を明示的に除去する新しいECFusion法を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:16:20Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - DI-V2X: Learning Domain-Invariant Representation for
Vehicle-Infrastructure Collaborative 3D Object Detection [78.09431523221458]
DI-V2Xは、新しい蒸留フレームワークを通じてドメイン不変表現を学習することを目的としている。
DI-V2Xは、ドメイン混合インスタンス拡張(DMA)モジュール、プログレッシブドメイン不変蒸留(PDD)モジュール、ドメイン適応融合(DAF)モジュールの3つの必須成分から構成される。
論文 参考訳(メタデータ) (2023-12-25T14:40:46Z) - Mutual-Guided Dynamic Network for Image Fusion [51.615598671899335]
画像融合のための新しい相互誘導動的ネットワーク(MGDN)を提案する。
5つのベンチマークデータセットによる実験結果から,提案手法は4つの画像融合タスクにおいて既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-24T03:50:37Z) - X-Align++: cross-modal cross-view alignment for Bird's-eye-view
segmentation [44.58686493878629]
X-Alignは、BEVセグメンテーションのための新しいエンドツーエンドのクロスモーダルおよびクロスビュー学習フレームワークである。
X-Alignは、nuScenesとKITTI-360データセットの3つの絶対mIoUポイントにより、最先端を著しく上回る。
論文 参考訳(メタデータ) (2023-06-06T15:52:55Z) - Voxel or Pillar: Exploring Efficient Point Cloud Representation for 3D
Object Detection [49.324070632356296]
我々は3次元および2次元のスパース畳み込みにより点雲をボクセルと柱の特徴に符号化するスパース・ボクセル・ピラーエンコーダを開発した。
我々の効率的で完全なスパース法は、密度検出器とスパース検出器の両方にシームレスに統合できる。
論文 参考訳(メタデータ) (2023-04-06T05:00:58Z) - Unifying Voxel-based Representation with Transformer for 3D Object
Detection [143.91910747605107]
マルチモード3Dオブジェクト検出のための統一フレームワークUVTRを提案する。
提案手法は, ボクセル空間におけるマルチモーダリティ表現を統一し, 高精度かつ堅牢な単一モード・クロスモーダリティ3D検出を実現することを目的とする。
UVTRは、69.7%、55.1%、71.1%のNDSで、それぞれLiDAR、カメラ、マルチモダリティの入力を行う。
論文 参考訳(メタデータ) (2022-06-01T17:02:40Z) - Voxel Transformer for 3D Object Detection [133.34678177431914]
Voxel Transformer(ヴォクセルトランスフォーマー、VoTr)は、点雲から3Dオブジェクトを検出するための、新鮮で効果的なボクセルベースのトランスフォーマーバックボーンである。
提案するVoTrは、KITTIデータセットとOpenデータセットの計算効率を維持しながら、畳み込みベースラインよりも一貫した改善を示す。
論文 参考訳(メタデータ) (2021-09-06T14:10:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。