論文の概要: KAN-RCBEVDepth: A multi-modal fusion algorithm in object detection for autonomous driving
- arxiv url: http://arxiv.org/abs/2408.02088v3
- Date: Tue, 27 Aug 2024 16:46:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 18:38:45.082773
- Title: KAN-RCBEVDepth: A multi-modal fusion algorithm in object detection for autonomous driving
- Title(参考訳): Kan-RCBEVDepth:自律運転のための物体検出のための多モード融合アルゴリズム
- Authors: Zhihao Lai, Chuanhao Liu, Shihui Sheng, Zhiqiang Zhang,
- Abstract要約: 本稿では, 自律走行における3次元物体検出の高速化を目的としたkan-RCBEVDepth法を提案する。
我々のユニークなBird’s Eye Viewベースのアプローチは、検出精度と効率を大幅に改善します。
コードはurlhttps://www.laitiamo.com/laitiamo/RCBEVDepth-KANでリリースされる。
- 参考スコア(独自算出の注目度): 2.382388777981433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate 3D object detection in autonomous driving is critical yet challenging due to occlusions, varying object sizes, and complex urban environments. This paper introduces the KAN-RCBEVDepth method, an innovative approach aimed at enhancing 3D object detection by fusing multimodal sensor data from cameras, LiDAR, and millimeter-wave radar. Our unique Bird's Eye View-based approach significantly improves detection accuracy and efficiency by seamlessly integrating diverse sensor inputs, refining spatial relationship understanding, and optimizing computational procedures. Experimental results show that the proposed method outperforms existing techniques across multiple detection metrics, achieving a higher Mean Distance AP (0.389, 23\% improvement), a better ND Score (0.485, 17.1\% improvement), and a faster Evaluation Time (71.28s, 8\% faster). Additionally, the KAN-RCBEVDepth method significantly reduces errors compared to BEVDepth, with lower Transformation Error (0.6044, 13.8\% improvement), Scale Error (0.2780, 2.6\% improvement), Orientation Error (0.5830, 7.6\% improvement), Velocity Error (0.4244, 28.3\% improvement), and Attribute Error (0.2129, 3.2\% improvement). These findings suggest that our method offers enhanced accuracy, reliability, and efficiency, making it well-suited for dynamic and demanding autonomous driving scenarios. The code will be released in \url{https://github.com/laitiamo/RCBEVDepth-KAN}.
- Abstract(参考訳): 自動運転車における正確な3D物体検出は、閉塞、さまざまな物体の大きさ、複雑な都市環境のために、非常に難しい。
本稿では,カメラ,LiDAR,ミリ波レーダからのマルチモーダルセンサデータを融合させることにより,3次元物体検出の高度化をめざした革新的なアプローチであるkan-RCBEVDepth法を提案する。
我々のBird's Eye Viewベースのアプローチは、多様なセンサー入力をシームレスに統合し、空間関係の理解を洗練し、計算手順を最適化することにより、検出精度と効率を大幅に改善する。
実験結果から,提案手法は複数の検出指標にまたがって既存の手法よりも優れており,平均距離AP(0.389, 23\%改善),NDスコア(0.485, 17.1\%改善),評価時間(71.28s, 8\%高速化)が向上した。
さらに、Kan-RCBEVDepth法は、BEVDepthと比較してエラーを著しく低減し、低い変換エラー(0.6044, 13.8\%改善)、スケールエラー(0.2780, 2.6\%改善)、オリエンテーションエラー(0.5830, 7.6\%改善)、ベロシティエラー(0.4244, 28.3\%改善)、アトリビュートエラー(0.2129, 3.2\%改善)がある。
これらの結果から,提案手法は精度,信頼性,効率性を向上し,動的かつ要求の高い自動運転シナリオに適していることが示唆された。
コードは \url{https://github.com/laitiamo/RCBEVDepth-KAN} でリリースされる。
関連論文リスト
- Patch-Level Contrasting without Patch Correspondence for Accurate and
Dense Contrastive Representation Learning [79.43940012723539]
ADCLRは、正確で高密度な視覚表現を学習するための自己教師型学習フレームワークである。
提案手法は, コントラッシブな手法のための新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-23T07:38:09Z) - UncLe-SLAM: Uncertainty Learning for Dense Neural SLAM [60.575435353047304]
我々は、高密度ニューラルネットワークの同時局所化とマッピング(SLAM)のための不確実性学習フレームワークを提案する。
本稿では,2次元入力データのみから自己教師付きで学習可能なセンサ不確実性推定のためのオンラインフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T16:26:25Z) - Learned Two-Plane Perspective Prior based Image Resampling for Efficient
Object Detection [20.886999159134138]
リアルタイムの効率的な認識は、自律的なナビゲーションと都市規模のセンシングに不可欠である。
本研究では,3次元シーンの粗い形状を取り入れた学習可能な幾何学誘導先行手法を提案する。
提案手法は,4.1 $AP_S$ または +39% で検出率を向上し,また,4.3 $sAP_S$ または +63% で検出性能を向上する。
論文 参考訳(メタデータ) (2023-03-25T00:43:44Z) - Research on road object detection algorithm based on improved YOLOX [3.5539647094032705]
道路物体検出においては,小型物体と閉塞物体の除去が重要な問題である。
本稿では,予測ボックスと実ボックスの形状整合性を改善するために,DecIoU境界ボックス回帰損失関数を提案し,Push Lossを導入して境界ボックス回帰損失関数をさらに最適化する。
KITTIデータセットに対する多数の実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-02-16T08:58:42Z) - ERNIE-SPARSE: Learning Hierarchical Efficient Transformer Through
Regularized Self-Attention [48.697458429460184]
情報ボトルネック感度と異なる注目トポロジ間の不整合の2つの要因がスパース変換器の性能に影響を及ぼす可能性がある。
本稿では,ERNIE-Sparseというモデルを提案する。
i) 局所情報とグローバル情報を逐次統一する階層スパース変換器(HST) と、(ii) 注意トポロジの異なる変換器の距離を最小化する自己注意正規化(SAR) の2つの特徴がある。
論文 参考訳(メタデータ) (2022-03-23T08:47:01Z) - PP-PicoDet: A Better Real-Time Object Detector on Mobile Devices [13.62426382827205]
実時間物体検出器のPP-PicoDetファミリは,モバイルデバイスの物体検出において優れた性能を発揮する。
モデルは、他の一般的なモデルと比較して、精度とレイテンシのトレードオフを改善する。
論文 参考訳(メタデータ) (2021-11-01T12:53:17Z) - Small Object Detection Based on Modified FSSD and Model Compression [7.387639662781843]
本稿では,FSSDに基づく小型物体検出アルゴリズムを提案する。
計算コストと記憶空間を削減するため, モデル圧縮を実現するためにプルーニングを行う。
アルゴリズムの平均精度(mAP)は、PASCAL VOCで80.4%、GTX1080tiで59.5 FPSに達する。
論文 参考訳(メタデータ) (2021-08-24T03:20:32Z) - Uncertainty-Aware Camera Pose Estimation from Points and Lines [101.03675842534415]
Perspective-n-Point-and-Line (Pn$PL) は、2D-3D特徴座標の3Dモデルに関して、高速で正確で堅牢なカメラローカライゼーションを目指している。
論文 参考訳(メタデータ) (2021-07-08T15:19:36Z) - PLUME: Efficient 3D Object Detection from Stereo Images [95.31278688164646]
既存の手法では、2つのステップでこの問題に対処する: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。
この2つのタスクを同一のメトリック空間で統一するモデルを提案する。
提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-17T05:11:38Z) - ADAHESSIAN: An Adaptive Second Order Optimizer for Machine Learning [91.13797346047984]
本稿では,2次最適化アルゴリズムであるADAHESSIANを紹介する。
ADAHESSIANは、他の適応最適化手法と比較して、新しい最先端の成果を大きなマージンで達成することを示す。
論文 参考訳(メタデータ) (2020-06-01T05:00:51Z) - Detection of 3D Bounding Boxes of Vehicles Using Perspective
Transformation for Accurate Speed Measurement [3.8073142980733]
交通監視カメラで捉えた車両の3次元境界ボックス検出のためのアルゴリズムの改良版を提案する。
我々のアルゴリズムは、探索されたシーンの点の既知の幾何を利用して視点変換を構築する。
他の最先端の完全自動結果と比較して、我々のアルゴリズムは平均絶対速度測定誤差を32%(1.10 km/hから0.75 km/h)、絶対中央値誤差を40%(0.97 km/hから0.58 km/h)削減する。
論文 参考訳(メタデータ) (2020-03-29T21:01:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。