論文の概要: Dual-Domain Homogeneous Fusion with Cross-Modal Mamba and Progressive Decoder for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2503.08992v2
- Date: Mon, 17 Mar 2025 15:33:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:36:34.383118
- Title: Dual-Domain Homogeneous Fusion with Cross-Modal Mamba and Progressive Decoder for 3D Object Detection
- Title(参考訳): 3次元物体検出のためのクロスモーダルマンバとプログレッシブデコーダを用いた2次元均一核融合
- Authors: Xuzhong Hu, Zaipeng Duan, Pei An, Jun zhang, Jie Ma,
- Abstract要約: LiDARと同質なBEV領域における画像特徴の融合は、自律運転における3次元物体検出に人気がある。
しかし、このパラダイムは過剰な特徴圧縮によって制約される。
本稿では,これらの制約を克服するためのDual-Domain Homogeneous Fusion Network (DDHFusion)を提案する。
- 参考スコア(独自算出の注目度): 12.77616717954945
- License:
- Abstract: Fusing LiDAR and image features in a homogeneous BEV domain has become popular for 3D object detection in autonomous driving. However, this paradigm is constrained by the excessive feature compression. While some works explore dense voxel fusion to enable better feature interaction, they face high computational costs and challenges in query generation. Additionally, feature misalignment in both domains results in suboptimal detection accuracy. To address these limitations, we propose a Dual-Domain Homogeneous Fusion network (DDHFusion), which leverages the complementarily of both BEV and voxel domains while mitigating their drawbacks. Specifically, we first transform image features into BEV and sparse voxel representations using lift-splat-shot and our proposed Semantic-Aware Feature Sampling (SAFS) module. The latter significantly reduces computational overhead by discarding unimportant voxels. Next, we introduce Homogeneous Voxel and BEV Fusion (HVF and HBF) networks for multi-modal fusion within respective domains. They are equipped with novel cross-modal Mamba blocks to resolve feature misalignment and enable comprehensive scene perception. The output voxel features are injected into the BEV space to compensate for the information loss brought by direct height compression. During query selection, the Progressive Query Generation (PQG) mechanism is implemented in the BEV domain to reduce false negatives caused by feature compression. Furthermore, we propose a Progressive Decoder (QD) that sequentially aggregates not only context-rich BEV features but also geometry-aware voxel features with deformable attention and the Multi-Modal Voxel Feature Mixing (MMVFM) block for precise classification and box regression.
- Abstract(参考訳): LiDARと同質なBEV領域における画像特徴の融合は、自律運転における3次元物体検出に人気がある。
しかし、このパラダイムは過剰な特徴圧縮によって制約される。
機能相互作用を改善するために密度の高いボクセル融合を探索する研究もあるが、クエリ生成において高い計算コストと課題に直面している。
さらに、両方の領域における特徴の不一致は、最適下検出精度をもたらす。
これらの制約に対処するため,BEVドメインとボクセルドメインを相補的に利用し,その欠点を緩和するDual-Domain Homogeneous Fusion Network (DDHFusion)を提案する。
具体的には、まず、リフトスプラットショットと提案したSemantic-Aware Feature Sampling (SAFS)モジュールを用いて、画像特徴をBEVおよびスパースボクセル表現に変換する。
後者は、重要でないボクセルを捨てることで計算オーバーヘッドを大幅に削減する。
次に,同種Voxel と BEV Fusion (HVF と HBF) ネットワークを導入し,各ドメイン内でのマルチモーダル核融合について述べる。
特徴的不一致を解消し、総合的なシーン認識を可能にするために、新しいクロスモーダルなマンバブロックを備えている。
出力ボクセル機能は、直接高さ圧縮による情報損失を補うために、BEV空間に注入される。
クエリ選択中、プログレッシブクエリ生成(PQG)機構がBEVドメインに実装され、特徴圧縮による偽陰性を低減する。
さらに,コンテクストリッチなBEV特徴だけでなく,変形性を考慮した幾何学的ボクセル特徴を逐次集約するプログレッシブデコーダ(QD)と,正確な分類とボックス回帰のためのマルチモーダルボクセル特徴混合(MMVFM)ブロックを提案する。
関連論文リスト
- Efficient Feature Fusion for UAV Object Detection [9.632727117779178]
特に小さな物体は画像のごく一部を占めており、正確な検出を困難にしている。
既存のマルチスケール機能融合手法は、様々な解像度で機能を集約することでこれらの課題に対処する。
本稿では,UAVオブジェクト検出タスクに特化して設計された新しい機能融合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-29T20:39:16Z) - MR3D-Net: Dynamic Multi-Resolution 3D Sparse Voxel Grid Fusion for LiDAR-Based Collective Perception [0.5714074111744111]
MR3D-Netは,LiDARに基づく集団認識のための動的マルチレゾリューション3次元スパースボクセルグリッド融合バックボーンアーキテクチャである。
本研究では,様々な解像度の分散ボクセルグリッドが,通信帯域に適応できる有意義でコンパクトな環境表現を提供することを示す。
論文 参考訳(メタデータ) (2024-08-12T13:27:11Z) - Voxel Mamba: Group-Free State Space Models for Point Cloud based 3D Object Detection [59.34834815090167]
3Dボクセルをシリアライズして複数のシーケンスにグループ化し、トランスフォーマーに入力するシリアライズベースの手法は、3Dオブジェクト検出においてその効果を実証している。
グループフリー戦略を用いて、ボクセルの全空間を1つのシーケンスにシリアライズするVoxel SSMを提案する。
論文 参考訳(メタデータ) (2024-06-15T17:45:07Z) - Voxel or Pillar: Exploring Efficient Point Cloud Representation for 3D
Object Detection [49.324070632356296]
我々は3次元および2次元のスパース畳み込みにより点雲をボクセルと柱の特徴に符号化するスパース・ボクセル・ピラーエンコーダを開発した。
我々の効率的で完全なスパース法は、密度検出器とスパース検出器の両方にシームレスに統合できる。
論文 参考訳(メタデータ) (2023-04-06T05:00:58Z) - Homogeneous Multi-modal Feature Fusion and Interaction for 3D Object
Detection [16.198358858773258]
マルチモーダル3D物体検出は、自律運転において活発な研究課題となっている。
スパース3D点と高密度2Dピクセルの相互特徴融合を探索するのは簡単ではない。
最近のアプローチでは、画像特徴と2次元画像平面に投影される点雲の特徴を融合させるか、スパース点雲と高密度画像画素を組み合わせるかのどちらかである。
論文 参考訳(メタデータ) (2022-10-18T06:15:56Z) - Unifying Voxel-based Representation with Transformer for 3D Object
Detection [143.91910747605107]
マルチモード3Dオブジェクト検出のための統一フレームワークUVTRを提案する。
提案手法は, ボクセル空間におけるマルチモーダリティ表現を統一し, 高精度かつ堅牢な単一モード・クロスモーダリティ3D検出を実現することを目的とする。
UVTRは、69.7%、55.1%、71.1%のNDSで、それぞれLiDAR、カメラ、マルチモダリティの入力を行う。
論文 参考訳(メタデータ) (2022-06-01T17:02:40Z) - BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation [105.96557764248846]
本稿では,汎用マルチタスクマルチセンサ融合フレームワークであるBEVFusionを紹介する。
共有鳥眼ビュー表示空間におけるマルチモーダル特徴を統一する。
3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、コストは1.9倍である。
論文 参考訳(メタデータ) (2022-05-26T17:59:35Z) - Voxel Transformer for 3D Object Detection [133.34678177431914]
Voxel Transformer(ヴォクセルトランスフォーマー、VoTr)は、点雲から3Dオブジェクトを検出するための、新鮮で効果的なボクセルベースのトランスフォーマーバックボーンである。
提案するVoTrは、KITTIデータセットとOpenデータセットの計算効率を維持しながら、畳み込みベースラインよりも一貫した改善を示す。
論文 参考訳(メタデータ) (2021-09-06T14:10:22Z) - Volumetric Propagation Network: Stereo-LiDAR Fusion for Long-Range Depth
Estimation [81.08111209632501]
長距離深度推定のための幾何認識型ステレオLiDAR融合ネットワークを提案する。
ステレオ画像の対応を統一した3Dボリューム空間で導くためのキューとして、スパースで正確な点群を活用します。
我々のネットワークは,KITTIおよびVirtual-KITTIデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-03-24T03:24:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。