論文の概要: Dual-Domain Homogeneous Fusion with Cross-Modal Mamba and Progressive Decoder for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2503.08992v2
- Date: Mon, 17 Mar 2025 15:33:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 14:56:57.421849
- Title: Dual-Domain Homogeneous Fusion with Cross-Modal Mamba and Progressive Decoder for 3D Object Detection
- Title(参考訳): 3次元物体検出のためのクロスモーダルマンバとプログレッシブデコーダを用いた2次元均一核融合
- Authors: Xuzhong Hu, Zaipeng Duan, Pei An, Jun zhang, Jie Ma,
- Abstract要約: LiDARと同質なBEV領域における画像特徴の融合は、自律運転における3次元物体検出に人気がある。
しかし、このパラダイムは過剰な特徴圧縮によって制約される。
本稿では,これらの制約を克服するためのDual-Domain Homogeneous Fusion Network (DDHFusion)を提案する。
- 参考スコア(独自算出の注目度): 12.77616717954945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fusing LiDAR and image features in a homogeneous BEV domain has become popular for 3D object detection in autonomous driving. However, this paradigm is constrained by the excessive feature compression. While some works explore dense voxel fusion to enable better feature interaction, they face high computational costs and challenges in query generation. Additionally, feature misalignment in both domains results in suboptimal detection accuracy. To address these limitations, we propose a Dual-Domain Homogeneous Fusion network (DDHFusion), which leverages the complementarily of both BEV and voxel domains while mitigating their drawbacks. Specifically, we first transform image features into BEV and sparse voxel representations using lift-splat-shot and our proposed Semantic-Aware Feature Sampling (SAFS) module. The latter significantly reduces computational overhead by discarding unimportant voxels. Next, we introduce Homogeneous Voxel and BEV Fusion (HVF and HBF) networks for multi-modal fusion within respective domains. They are equipped with novel cross-modal Mamba blocks to resolve feature misalignment and enable comprehensive scene perception. The output voxel features are injected into the BEV space to compensate for the information loss brought by direct height compression. During query selection, the Progressive Query Generation (PQG) mechanism is implemented in the BEV domain to reduce false negatives caused by feature compression. Furthermore, we propose a Progressive Decoder (QD) that sequentially aggregates not only context-rich BEV features but also geometry-aware voxel features with deformable attention and the Multi-Modal Voxel Feature Mixing (MMVFM) block for precise classification and box regression.
- Abstract(参考訳): LiDARと同質なBEV領域における画像特徴の融合は、自律運転における3次元物体検出に人気がある。
しかし、このパラダイムは過剰な特徴圧縮によって制約される。
機能相互作用を改善するために密度の高いボクセル融合を探索する研究もあるが、クエリ生成において高い計算コストと課題に直面している。
さらに、両方の領域における特徴の不一致は、最適下検出精度をもたらす。
これらの制約に対処するため,BEVドメインとボクセルドメインを相補的に利用し,その欠点を緩和するDual-Domain Homogeneous Fusion Network (DDHFusion)を提案する。
具体的には、まず、リフトスプラットショットと提案したSemantic-Aware Feature Sampling (SAFS)モジュールを用いて、画像特徴をBEVおよびスパースボクセル表現に変換する。
後者は、重要でないボクセルを捨てることで計算オーバーヘッドを大幅に削減する。
次に,同種Voxel と BEV Fusion (HVF と HBF) ネットワークを導入し,各ドメイン内でのマルチモーダル核融合について述べる。
特徴的不一致を解消し、総合的なシーン認識を可能にするために、新しいクロスモーダルなマンバブロックを備えている。
出力ボクセル機能は、直接高さ圧縮による情報損失を補うために、BEV空間に注入される。
クエリ選択中、プログレッシブクエリ生成(PQG)機構がBEVドメインに実装され、特徴圧縮による偽陰性を低減する。
さらに,コンテクストリッチなBEV特徴だけでなく,変形性を考慮した幾何学的ボクセル特徴を逐次集約するプログレッシブデコーダ(QD)と,正確な分類とボックス回帰のためのマルチモーダルボクセル特徴混合(MMVFM)ブロックを提案する。
関連論文リスト
- SparseVoxFormer: Sparse Voxel-based Transformer for Multi-modal 3D Object Detection [12.941263635455915]
従来の3Dオブジェクト検出手法では,Bird's Eye View (BEV) 空間を中間特徴表現として用いた。
本稿では,LiDAR点クラウドデータのスパース性に着目した。
SparseVoxFormerと呼ばれる3次元オブジェクト検出のための新しいスパースボクセルベースのトランスフォーマーネットワークを導入する。
論文 参考訳(メタデータ) (2025-03-11T06:52:25Z) - V2X-DGPE: Addressing Domain Gaps and Pose Errors for Robust Collaborative 3D Object Detection [18.694510415777632]
V2X-DGPEは高精度で堅牢なV2X特徴レベルの協調認識フレームワークである。
提案手法は既存の手法より優れ、最先端検出性能を実現する。
論文 参考訳(メタデータ) (2025-01-04T19:28:55Z) - A Hybrid Transformer-Mamba Network for Single Image Deraining [70.64069487982916]
既存のデラリング変換器では、固定レンジウィンドウやチャネル次元に沿って自己アテンション機構を採用している。
本稿では,多分岐型トランスフォーマー・マンバネットワーク(Transformer-Mamba Network,TransMamba Network,Transformer-Mamba Network)を提案する。
論文 参考訳(メタデータ) (2024-08-31T10:03:19Z) - HEAD: A Bandwidth-Efficient Cooperative Perception Approach for Heterogeneous Connected and Autonomous Vehicles [9.10239345027499]
HEADは3次元物体検出ネットワークにおける分類と回帰ヘッドの特徴を融合する手法である。
実験の結果,HEADは通信帯域幅と知覚性能を効果的にバランスさせる融合法であることがわかった。
論文 参考訳(メタデータ) (2024-08-27T22:05:44Z) - MR3D-Net: Dynamic Multi-Resolution 3D Sparse Voxel Grid Fusion for LiDAR-Based Collective Perception [0.5714074111744111]
MR3D-Netは,LiDARに基づく集団認識のための動的マルチレゾリューション3次元スパースボクセルグリッド融合バックボーンアーキテクチャである。
本研究では,様々な解像度の分散ボクセルグリッドが,通信帯域に適応できる有意義でコンパクトな環境表現を提供することを示す。
論文 参考訳(メタデータ) (2024-08-12T13:27:11Z) - BiCo-Fusion: Bidirectional Complementary LiDAR-Camera Fusion for Semantic- and Spatial-Aware 3D Object Detection [10.321117046185321]
新しいトレンドはマルチモーダル入力、すなわちLiDARとカメラを融合させることである。
LiDARの機能は詳細なセマンティック情報と格闘し、カメラは正確な3D空間情報を欠いている。
BiCo-Fusionは、ロバストなセマンティックおよび空間認識の3Dオブジェクト検出を実現する。
論文 参考訳(メタデータ) (2024-06-27T09:56:38Z) - Retain, Blend, and Exchange: A Quality-aware Spatial-Stereo Fusion Approach for Event Stream Recognition [57.74076383449153]
本稿では,差分融合によるイベントストリームに基づくパターン認識のための新しいデュアルストリームフレームワークEFV++を提案する。
イベントイメージとイベントボクセルという2つの共通のイベント表現を同時にモデル化する。
Bullying10kデータセットで新しい最先端のパフォーマンス、すなわち90.51%$を達成し、2位を+2.21%$で上回る。
論文 参考訳(メタデータ) (2024-06-27T02:32:46Z) - Eliminating Cross-modal Conflicts in BEV Space for LiDAR-Camera 3D
Object Detection [26.75994759483174]
最近の3Dオブジェクト検出器は、一般的にマルチセンサーデータを使用し、共有鳥眼ビュー(BEV)表現空間におけるマルチモーダル特徴を統一する。
従来手法では、モーダル間衝突のない融合型BEV機能の生成に制限があった。
本稿では,BEV空間における外因性/外因性衝突を明示的に除去する新しいECFusion法を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:16:20Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - DI-V2X: Learning Domain-Invariant Representation for
Vehicle-Infrastructure Collaborative 3D Object Detection [78.09431523221458]
DI-V2Xは、新しい蒸留フレームワークを通じてドメイン不変表現を学習することを目的としている。
DI-V2Xは、ドメイン混合インスタンス拡張(DMA)モジュール、プログレッシブドメイン不変蒸留(PDD)モジュール、ドメイン適応融合(DAF)モジュールの3つの必須成分から構成される。
論文 参考訳(メタデータ) (2023-12-25T14:40:46Z) - Mutual-Guided Dynamic Network for Image Fusion [51.615598671899335]
画像融合のための新しい相互誘導動的ネットワーク(MGDN)を提案する。
5つのベンチマークデータセットによる実験結果から,提案手法は4つの画像融合タスクにおいて既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-24T03:50:37Z) - X-Align++: cross-modal cross-view alignment for Bird's-eye-view
segmentation [44.58686493878629]
X-Alignは、BEVセグメンテーションのための新しいエンドツーエンドのクロスモーダルおよびクロスビュー学習フレームワークである。
X-Alignは、nuScenesとKITTI-360データセットの3つの絶対mIoUポイントにより、最先端を著しく上回る。
論文 参考訳(メタデータ) (2023-06-06T15:52:55Z) - Voxel or Pillar: Exploring Efficient Point Cloud Representation for 3D
Object Detection [49.324070632356296]
我々は3次元および2次元のスパース畳み込みにより点雲をボクセルと柱の特徴に符号化するスパース・ボクセル・ピラーエンコーダを開発した。
我々の効率的で完全なスパース法は、密度検出器とスパース検出器の両方にシームレスに統合できる。
論文 参考訳(メタデータ) (2023-04-06T05:00:58Z) - Unifying Voxel-based Representation with Transformer for 3D Object
Detection [143.91910747605107]
マルチモード3Dオブジェクト検出のための統一フレームワークUVTRを提案する。
提案手法は, ボクセル空間におけるマルチモーダリティ表現を統一し, 高精度かつ堅牢な単一モード・クロスモーダリティ3D検出を実現することを目的とする。
UVTRは、69.7%、55.1%、71.1%のNDSで、それぞれLiDAR、カメラ、マルチモダリティの入力を行う。
論文 参考訳(メタデータ) (2022-06-01T17:02:40Z) - Voxel Transformer for 3D Object Detection [133.34678177431914]
Voxel Transformer(ヴォクセルトランスフォーマー、VoTr)は、点雲から3Dオブジェクトを検出するための、新鮮で効果的なボクセルベースのトランスフォーマーバックボーンである。
提案するVoTrは、KITTIデータセットとOpenデータセットの計算効率を維持しながら、畳み込みベースラインよりも一貫した改善を示す。
論文 参考訳(メタデータ) (2021-09-06T14:10:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。