論文の概要: Fusion4CA: Boosting 3D Object Detection via Comprehensive Image Exploitation
- arxiv url: http://arxiv.org/abs/2603.05305v1
- Date: Thu, 05 Mar 2026 15:46:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.305402
- Title: Fusion4CA: Boosting 3D Object Detection via Comprehensive Image Exploitation
- Title(参考訳): Fusion4CA: 総合的な画像爆発による3次元物体検出の強化
- Authors: Kang Luo, Xin Chen, Yangyi Xiao, Hesheng Wang,
- Abstract要約: Fusion4CAは古典的なBEVFusionフレームワーク上に構築されており、プラグイン・アンド・プレイコンポーネントによる視覚的な入力を完全に活用することを目的としている。
本手法は6つのトレーニングエポックと3.48%の推論パラメータで69.7%のmAPを達成する。
- 参考スコア(独自算出の注目度): 18.857802421595235
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Nowadays, an increasing number of works fuse LiDAR and RGB data in the bird's-eye view (BEV) space for 3D object detection in autonomous driving systems. However, existing methods suffer from over-reliance on the LiDAR branch, with insufficient exploration of RGB information. To tackle this issue, we propose Fusion4CA, which is built upon the classic BEVFusion framework and dedicated to fully exploiting visual input with plug-and-play components. Specifically, a contrastive alignment module is designed to calibrate image features with 3D geometry, and a camera auxiliary branch is introduced to mine RGB information sufficiently during training. For further performance enhancement, we leverage an off-the-shelf cognitive adapter to make the most of pretrained image weights, and integrate a standard coordinate attention module into the fusion stage as a supplementary boost. Experiments on the nuScenes dataset demonstrate that our method achieves 69.7% mAP with only 6 training epochs and a mere 3.48% increase in inference parameters, yielding a 1.2% improvement over the baseline which is fully trained for 20 epochs. Extensive experiments in a simulated lunar environment further validate the effectiveness and generalization of our method. Our code will be released through Fusion4CA.
- Abstract(参考訳): 今日では、自律運転システムにおける3Dオブジェクト検出のために、鳥眼ビュー(BEV)空間におけるLiDARとRGBデータを融合する作業が増えている。
しかし、既存の手法は、RGB情報の探索が不十分なLiDARブランチの過度な信頼性に悩まされている。
この問題に対処するため,従来のBEVFusionフレームワーク上に構築され,プラグイン・アンド・プレイコンポーネントによる視覚入力を完全に活用するFusion4CAを提案する。
具体的には、3次元形状で画像特徴を校正するコントラストアライメントモジュールを設計し、トレーニング中に十分なRGB情報をマイニングするためにカメラ補助枝を導入する。
さらなる性能向上のために、既訓練画像重みを最大限に活用するために市販の認知アダプターを活用し、標準座標アテンションモジュールを核融合ステージに統合し、補助的なブースターとして利用する。
nuScenesデータセットの実験により,本手法は6つのトレーニングエポックで69.7%のmAPを達成でき,推論パラメータは3.48%増加し,20エポックで完全にトレーニングされたベースラインよりも1.2%改善した。
シミュレーションした月の環境における大規模な実験により,本手法の有効性と一般化がさらに検証された。
私たちのコードはFusion4CAを通じてリリースされます。
関連論文リスト
- Enhancing Pseudo-Boxes via Data-Level LiDAR-Camera Fusion for Unsupervised 3D Object Detection [18.684602624559734]
RGB画像とLiDARデータを早期に統合する新しいデータレベル融合フレームワークを提案する。
本稿では,データレベルの融合に基づく動的自己進化戦略を提案する。
nuScenesデータセットの実験では、我々の方法で訓練された検出器は、従来の最先端の手法で訓練された検出器よりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-08-28T08:15:23Z) - CVFusion: Cross-View Fusion of 4D Radar and Camera for 3D Object Detection [11.109888378081187]
本稿では,CVFusionと呼ばれる2段階間核融合ネットワークを提案する。
第1段階では、高リコール3D提案ボックスを生成するために、レーダ誘導反復(RGIter)BEV融合モジュールを設計する。
第2段階では、各提案のポイント、イメージ、BEVを含む複数の異種ビューから特徴を集約する。
提案手法は,ビュー・オブ・デルフト(VoD)とTJ4DRadSetでそれぞれ9.10%,3.68%のmAP改善を達成し,従来の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-07-07T00:45:53Z) - RaCFormer: Towards High-Quality 3D Object Detection via Query-based Radar-Camera Fusion [58.77329237533034]
本稿では3次元物体検出の精度を高めるために,Raar-Camera fusion transformer (RaCFormer)を提案する。
RaCFormerは、nuScenesデータセット上で64.9% mAPと70.2%の優れた結果を得る。
論文 参考訳(メタデータ) (2024-12-17T09:47:48Z) - 4D Contrastive Superflows are Dense 3D Representation Learners [62.433137130087445]
我々は,LiDARとカメラのペアを連続的に利用して事前学習の目的を確立するための,新しいフレームワークであるSuperFlowを紹介する。
学習効率をさらに向上するため,カメラビューから抽出した知識の整合性を高めるプラグイン・アンド・プレイ・ビュー・一貫性モジュールを組み込んだ。
論文 参考訳(メタデータ) (2024-07-08T17:59:54Z) - AYDIV: Adaptable Yielding 3D Object Detection via Integrated Contextual
Vision Transformer [5.287142970575824]
AYDIVは,長距離検出に特化して設計された三相アライメントプロセスを統合する新しいフレームワークである。
AYDIVのオープンデータセット(WOD)のパフォーマンスは、mAPH値(L2の難しさ)の1.24%、Argoverse2データセットのパフォーマンスはAP値の7.40%向上した。
論文 参考訳(メタデータ) (2024-02-12T14:40:43Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - BEVFusion4D: Learning LiDAR-Camera Fusion Under Bird's-Eye-View via
Cross-Modality Guidance and Temporal Aggregation [14.606324706328106]
本稿では,LiDARとカメラBEVを生成し,適応的なモダリティ融合を行うためのデュアルブランチフレームワークを提案する。
LiDAR-Guided View Transformer (LGVT) は、BEV空間におけるカメラ表現を効果的に得るように設計されている。
BEVFusion4Dと呼ばれる我々のフレームワークは、3Dオブジェクト検出において最先端の結果を得る。
論文 参考訳(メタデータ) (2023-03-30T02:18:07Z) - BEV-MAE: Bird's Eye View Masked Autoencoders for Point Cloud
Pre-training in Autonomous Driving Scenarios [51.285561119993105]
自律運転におけるLiDARに基づく3Dオブジェクト検出のための,効率的なマスク付きオートエンコーダ事前学習フレームワークであるBEV-MAEを提案する。
具体的には、3Dエンコーダ学習特徴表現を導くために,鳥の目視(BEV)誘導マスキング戦略を提案する。
学習可能なポイントトークンを導入し、3Dエンコーダの一貫性のある受容的フィールドサイズを維持する。
論文 参考訳(メタデータ) (2022-12-12T08:15:03Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation [105.96557764248846]
本稿では,汎用マルチタスクマルチセンサ融合フレームワークであるBEVFusionを紹介する。
共有鳥眼ビュー表示空間におけるマルチモーダル特徴を統一する。
3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、コストは1.9倍である。
論文 参考訳(メタデータ) (2022-05-26T17:59:35Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。