論文の概要: Dual-Domain Homogeneous Fusion with Cross-Modal Mamba and Progressive Decoder for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2503.08992v1
- Date: Wed, 12 Mar 2025 01:55:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:39:25.205966
- Title: Dual-Domain Homogeneous Fusion with Cross-Modal Mamba and Progressive Decoder for 3D Object Detection
- Title(参考訳): 3次元物体検出のためのクロスモーダルマンバとプログレッシブデコーダを用いた2次元均一核融合
- Authors: Xuzhong Hu, Zaipeng Duan, Pei An, Jun zhang, Jie Ma,
- Abstract要約: 均一なBEV空間におけるLiDAR点雲の特徴と画像の特徴は、自律運転における3次元物体検出に広く採用されている。
密度の高いボクセル空間における特徴融合を探求する研究もあるが、それらは高い計算コストとクエリ生成の非効率に悩まされている。
本稿では,BEVドメインとボクセルドメインの相補的優位性を利用するDual-Domain Homogeneous Fusion Network (DDHFusion)を提案する。
- 参考スコア(独自算出の注目度): 12.77616717954945
- License:
- Abstract: Fusing LiDAR point cloud features and image features in a homogeneous BEV space has been widely adopted for 3D object detection in autonomous driving. However, such methods are limited by the excessive compression of multi-modal features. While some works explore feature fusion in dense voxel spaces, they suffer from high computational costs and inefficiencies in query generation. To address these limitations, we propose a Dual-Domain Homogeneous Fusion network (DDHFusion), which leverages the complementary advantages of both BEV and voxel domains while mitigating their respective drawbacks. Specifically, we first transform image features into BEV and sparse voxel spaces using LSS and our proposed semantic-aware feature sampling module which can significantly reduces computational overhead by filtering unimportant voxels. For feature encoding, we design two networks for BEV and voxel feature fusion, incorporating novel cross-modal voxel and BEV Mamba blocks to resolve feature misalignment and enable efficient yet comprehensive scene perception. The output voxel features are injected into the BEV space to compensate for the loss of 3D details caused by height compression. For feature decoding, a progressive query generation module is implemented in the BEV domain to alleviate false negatives during query selection caused by feature compression and small object sizes. Finally, a progressive decoder can sequentially aggregate not only context-rich BEV features but also geometry-aware voxel features, ensuring more precise confidence prediction and bounding box regression. On the NuScenes dataset, DDHfusion achieves state-of-the-art performance, and further experiments demonstrate its superiority over other homogeneous fusion methods.
- Abstract(参考訳): 均一なBEV空間におけるLiDAR点雲の特徴と画像の特徴は、自律運転における3次元物体検出に広く採用されている。
しかし、そのような方法はマルチモーダル特徴の過剰な圧縮によって制限される。
密度の高いボクセル空間における特徴融合を探求する研究もあるが、それらは高い計算コストとクエリ生成の非効率に悩まされている。
これらの制約に対処するため、各欠点を軽減しつつ、BEVとボクセルドメインの相補的優位性を利用するDual-Domain Homogeneous Fusion Network (DDHFusion)を提案する。
具体的には,まず画像特徴量を,LSSと提案した意味認識機能サンプリングモジュールを用いて,BEVとスパースボクセル空間に変換し,重要でないボクセルをフィルタリングすることで計算オーバーヘッドを大幅に削減する。
特徴符号化のために,BEVとVoxelの機能融合のための2つのネットワークを設計し,新しいクロスモーダルなボクセルブロックとBEV Mambaブロックを組み込むことにより,特徴の不整合を解消し,効率よくかつ包括的シーン認識を可能にする。
出力ボクセル機能は、高さ圧縮による3D詳細の損失を補うために、BEV空間に注入される。
機能のデコーディングでは、プログレッシブなクエリ生成モジュールがBEVドメインに実装され、機能圧縮と小さなオブジェクトサイズによるクエリ選択時の偽陰性を軽減する。
最後に、プログレッシブデコーダは、コンテキストリッチなBEV機能だけでなく、幾何対応のボクセル機能も順次集約し、より正確な信頼性予測とバウンディングボックス回帰を保証する。
NuScenesデータセットでは、DDHfusionは最先端のパフォーマンスを達成し、他の同種核融合法よりもその優位性を示す。
関連論文リスト
- Efficient Feature Fusion for UAV Object Detection [9.632727117779178]
特に小さな物体は画像のごく一部を占めており、正確な検出を困難にしている。
既存のマルチスケール機能融合手法は、様々な解像度で機能を集約することでこれらの課題に対処する。
本稿では,UAVオブジェクト検出タスクに特化して設計された新しい機能融合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-29T20:39:16Z) - MR3D-Net: Dynamic Multi-Resolution 3D Sparse Voxel Grid Fusion for LiDAR-Based Collective Perception [0.5714074111744111]
MR3D-Netは,LiDARに基づく集団認識のための動的マルチレゾリューション3次元スパースボクセルグリッド融合バックボーンアーキテクチャである。
本研究では,様々な解像度の分散ボクセルグリッドが,通信帯域に適応できる有意義でコンパクトな環境表現を提供することを示す。
論文 参考訳(メタデータ) (2024-08-12T13:27:11Z) - Voxel Mamba: Group-Free State Space Models for Point Cloud based 3D Object Detection [59.34834815090167]
3Dボクセルをシリアライズして複数のシーケンスにグループ化し、トランスフォーマーに入力するシリアライズベースの手法は、3Dオブジェクト検出においてその効果を実証している。
グループフリー戦略を用いて、ボクセルの全空間を1つのシーケンスにシリアライズするVoxel SSMを提案する。
論文 参考訳(メタデータ) (2024-06-15T17:45:07Z) - Voxel or Pillar: Exploring Efficient Point Cloud Representation for 3D
Object Detection [49.324070632356296]
我々は3次元および2次元のスパース畳み込みにより点雲をボクセルと柱の特徴に符号化するスパース・ボクセル・ピラーエンコーダを開発した。
我々の効率的で完全なスパース法は、密度検出器とスパース検出器の両方にシームレスに統合できる。
論文 参考訳(メタデータ) (2023-04-06T05:00:58Z) - Homogeneous Multi-modal Feature Fusion and Interaction for 3D Object
Detection [16.198358858773258]
マルチモーダル3D物体検出は、自律運転において活発な研究課題となっている。
スパース3D点と高密度2Dピクセルの相互特徴融合を探索するのは簡単ではない。
最近のアプローチでは、画像特徴と2次元画像平面に投影される点雲の特徴を融合させるか、スパース点雲と高密度画像画素を組み合わせるかのどちらかである。
論文 参考訳(メタデータ) (2022-10-18T06:15:56Z) - Unifying Voxel-based Representation with Transformer for 3D Object
Detection [143.91910747605107]
マルチモード3Dオブジェクト検出のための統一フレームワークUVTRを提案する。
提案手法は, ボクセル空間におけるマルチモーダリティ表現を統一し, 高精度かつ堅牢な単一モード・クロスモーダリティ3D検出を実現することを目的とする。
UVTRは、69.7%、55.1%、71.1%のNDSで、それぞれLiDAR、カメラ、マルチモダリティの入力を行う。
論文 参考訳(メタデータ) (2022-06-01T17:02:40Z) - BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation [105.96557764248846]
本稿では,汎用マルチタスクマルチセンサ融合フレームワークであるBEVFusionを紹介する。
共有鳥眼ビュー表示空間におけるマルチモーダル特徴を統一する。
3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、コストは1.9倍である。
論文 参考訳(メタデータ) (2022-05-26T17:59:35Z) - Voxel Transformer for 3D Object Detection [133.34678177431914]
Voxel Transformer(ヴォクセルトランスフォーマー、VoTr)は、点雲から3Dオブジェクトを検出するための、新鮮で効果的なボクセルベースのトランスフォーマーバックボーンである。
提案するVoTrは、KITTIデータセットとOpenデータセットの計算効率を維持しながら、畳み込みベースラインよりも一貫した改善を示す。
論文 参考訳(メタデータ) (2021-09-06T14:10:22Z) - Volumetric Propagation Network: Stereo-LiDAR Fusion for Long-Range Depth
Estimation [81.08111209632501]
長距離深度推定のための幾何認識型ステレオLiDAR融合ネットワークを提案する。
ステレオ画像の対応を統一した3Dボリューム空間で導くためのキューとして、スパースで正確な点群を活用します。
我々のネットワークは,KITTIおよびVirtual-KITTIデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-03-24T03:24:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。