論文の概要: A Multimodal Hybrid Late-Cascade Fusion Network for Enhanced 3D Object Detection
- arxiv url: http://arxiv.org/abs/2504.18419v1
- Date: Fri, 25 Apr 2025 15:28:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.815022
- Title: A Multimodal Hybrid Late-Cascade Fusion Network for Enhanced 3D Object Detection
- Title(参考訳): 拡張3次元物体検出のためのマルチモーダルハイブリッド後期カスケード核融合ネットワーク
- Authors: Carlo Sgaravatti, Roberto Basla, Riccardo Pieroni, Matteo Corno, Sergio M. Savaresi, Luca Magri, Giacomo Boracchi,
- Abstract要約: マルチモーダル入力から3Dオブジェクトを検出するための新しい手法を提案する。
画像上にLiDAR境界ボックスを投影することにより,LiDAR検出とRGB検出とを一致させる。
我々は、KITTIオブジェクト検出ベンチマークで結果を評価し、大幅な性能改善を示した。
- 参考スコア(独自算出の注目度): 6.399439052541506
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present a new way to detect 3D objects from multimodal inputs, leveraging both LiDAR and RGB cameras in a hybrid late-cascade scheme, that combines an RGB detection network and a 3D LiDAR detector. We exploit late fusion principles to reduce LiDAR False Positives, matching LiDAR detections with RGB ones by projecting the LiDAR bounding boxes on the image. We rely on cascade fusion principles to recover LiDAR False Negatives leveraging epipolar constraints and frustums generated by RGB detections of separate views. Our solution can be plugged on top of any underlying single-modal detectors, enabling a flexible training process that can take advantage of pre-trained LiDAR and RGB detectors, or train the two branches separately. We evaluate our results on the KITTI object detection benchmark, showing significant performance improvements, especially for the detection of Pedestrians and Cyclists.
- Abstract(参考訳): 我々は,RGB検出ネットワークと3D LiDAR検出器を組み合わせたハイブリッド遅延カスケード方式で,マルチモーダル入力から3Dオブジェクトを検出する新しい方法を提案する。
画像上にLiDAR境界ボックスを投影することにより,LiDAR検出とRGB検出とを一致させる。
我々は,LDAR False Negativesの回収にカスケード融合の原理を頼りに,RGBによる個別の視点の検出によって生じるエピポーラ制約とフラストレーションを活用している。
我々のソリューションは、基礎となる任意の単一モード検出器の上に接続することができ、事前訓練されたLiDARとRGB検出器を利用する柔軟なトレーニングプロセスや、2つのブランチを個別に訓練することができる。
我々は、KITTIオブジェクト検出ベンチマークの結果を評価し、特に歩行者や自転車の検知において、大幅な性能向上を示した。
関連論文リスト
- Bringing RGB and IR Together: Hierarchical Multi-Modal Enhancement for Robust Transmission Line Detection [67.02804741856512]
高速かつ高精度なTL検出のために,RGBとIRデータを統合したHMMEN(Hierarchical Multi-Modal Enhancement Network)を提案する。
提案手法では,(1)階層的RGBおよびIR特徴写像を大まかに融合・拡張するMMEB,(2)デコーダ出力とIR特徴写像の不整合を変形可能な畳み込みを利用して補正するFAB,の2つの重要な構成要素を紹介する。
論文 参考訳(メタデータ) (2025-01-25T06:21:06Z) - VaLID: Verification as Late Integration of Detections for LiDAR-Camera Fusion [2.503388496100123]
車両物体検出は、LiDARとカメラデータの両方から恩恵を受ける。
本稿では,各予測境界ボックスが許容可能であるかどうかを検証するモデル適応型遅延融合法VaLIDを提案する。
提案手法はモデル適応型であり,汎用カメラ検出器を用いた場合においても最先端の競争性能を示す。
論文 参考訳(メタデータ) (2024-09-23T20:27:10Z) - Better Monocular 3D Detectors with LiDAR from the Past [64.6759926054061]
カメラベースの3D検出器は、画像の奥行きのあいまいさのため、LiDARベースの検出器に比べて性能が劣ることが多い。
本研究では,未ラベルの歴史的LiDARデータを活用することにより,単分子3D検出器の改良を図る。
複数の最先端モデルやデータセットに対して,9.66ミリ秒の追加レイテンシとストレージコストの低い,一貫性と大幅なパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2024-04-08T01:38:43Z) - LiRaFusion: Deep Adaptive LiDAR-Radar Fusion for 3D Object Detection [7.505655376776177]
3次元物体検出のためのLiDAR-レーダー融合のためのLiRaFusionを提案する。
我々は,結合ボクセル特徴符号化のための早期融合モジュールと,特徴写像を適応的に融合させる中核融合モジュールを設計する。
既存の手法に比べてLiRaFusionが顕著な改善を達成できることを示すため,我々はnuScenesを広範囲に評価する。
論文 参考訳(メタデータ) (2024-02-18T23:29:28Z) - Long-Tailed 3D Detection via Multi-Modal Fusion [47.03801888003686]
本研究では,Long-Tailed 3D Detection (LT3D) の問題点について検討した。
単モードLiDARとRGB検出器を独立に訓練した多モード遅延核融合(MMLF)により,レアクラスの精度が特に向上することが指摘されている。
提案するMMLFアプローチは,従来の作業よりもLT3Dの性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-12-18T07:14:25Z) - Bi-LRFusion: Bi-Directional LiDAR-Radar Fusion for 3D Dynamic Object
Detection [78.59426158981108]
この課題に対処し、動的オブジェクトの3D検出を改善するために、双方向LiDAR-Radar融合フレームワーク、Bi-LRFusionを導入する。
我々はnuScenesとORRデータセットに関する広範な実験を行い、我々のBi-LRFusionが動的オブジェクトを検出するための最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-06-02T10:57:41Z) - Multimodal Industrial Anomaly Detection via Hybrid Fusion [59.16333340582885]
ハイブリッド核融合方式を用いた新しいマルチモーダル異常検出法を提案する。
本モデルでは,MVTecD-3 ADデータセットにおける検出精度とセグメンテーション精度の両面で,最先端(SOTA)手法より優れている。
論文 参考訳(メタデータ) (2023-03-01T15:48:27Z) - Boosting 3D Object Detection by Simulating Multimodality on Point Clouds [51.87740119160152]
本稿では,LiDAR 画像検出器に追従する特徴や応答をシミュレートすることで,単一モダリティ (LiDAR) 3次元物体検出器を高速化する新しい手法を提案する。
このアプローチでは、単一モダリティ検出器をトレーニングする場合のみ、LiDARイメージデータを必要とし、十分にトレーニングされた場合には、推論時にのみLiDARデータが必要である。
nuScenesデータセットの実験結果から,本手法はSOTA LiDARのみの3D検出器よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-06-30T01:44:30Z) - Fully Convolutional One-Stage 3D Object Detection on LiDAR Range Images [96.66271207089096]
FCOS-LiDARは、自律走行シーンのLiDAR点雲のための完全な1段式3Dオブジェクト検出器である。
標準的な2Dコンボリューションを持つRVベースの3D検出器は、最先端のBEVベースの検出器と同等の性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-05-27T05:42:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。