Fugu-MT 論文翻訳(概要): KAN-RCBEVDepth: A multi-modal fusion algorithm in object detection for autonomous driving

論文の概要: KAN-RCBEVDepth: A multi-modal fusion algorithm in object detection for autonomous driving

arxiv url: http://arxiv.org/abs/2408.02088v2
Date: Tue, 13 Aug 2024 18:18:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-15 15:28:26.631627
Title: KAN-RCBEVDepth: A multi-modal fusion algorithm in object detection for autonomous driving
Title（参考訳）: Kan-RCBEVDepth:自律運転のための物体検出のための多モード融合アルゴリズム
Authors: Zhihao Lai, Chuanhao Liu, Shihui Sheng, Zhiqiang Zhang,
Abstract要約: 本稿では,カメラ,LiDAR,ミリ波レーダからのマルチモーダルセンサデータを融合させることにより,3次元物体検出の高速化を目的としたEV-KANアルゴリズムを提案する。我々の革新的なBird's Eye View(BEV)ベースのアプローチは、Transformerアーキテクチャを利用して、検出精度と効率を大幅に向上します。実験の結果,EV-KANモデルは,ほとんどの検出カテゴリにおいて優れた性能を示した。
参考スコア（独自算出の注目度）: 2.382388777981433
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Accurate 3D object detection in autonomous driving is critical yet challenging due to occlusions, varying object scales, and complex urban environments. This paper introduces the RCBEV-KAN algorithm, a pioneering method designed to enhance 3D object detection by fusing multimodal sensor data from cameras, LiDAR, and millimeter-wave radar. Our innovative Bird's Eye View (BEV)-based approach, utilizing a Transformer architecture, significantly boosts detection precision and efficiency by seamlessly integrating diverse data sources, improving spatial relationship handling, and optimizing computational processes. Experimental results show that the RCBEV-KAN model demonstrates superior performance across most detection categories, achieving higher Mean Distance AP (0.389 vs. 0.316, a 23% improvement), better ND Score (0.484 vs. 0.415, a 17% improvement), and faster Evaluation Time (71.28s, 8% faster). These results indicate that RCBEV-KAN is more accurate, reliable, and efficient, making it ideal for dynamic and challenging autonomous driving environments.
Abstract（参考訳）: 自動運転車における正確な3D物体検出は、閉塞性、様々な物体スケール、複雑な都市環境のために、非常に困難である。本稿では,カメラ,LiDAR,ミリ波レーダからのマルチモーダルセンサデータを融合させて3次元物体検出の先駆的手法であるCBEV-KANアルゴリズムを提案する。我々の革新的なBird's Eye View(BEV)ベースのアプローチは、Transformerアーキテクチャを利用して、多様なデータソースをシームレスに統合し、空間的関係処理を改善し、計算プロセスを最適化することにより、検出精度と効率を大幅に向上させる。 RCBEV-KANモデルは,平均距離AP(0.389 vs. 0.316, 23%改善),NDスコア(0.484 vs. 0.415, 17%改善),評価時間(71.28s, 8%高速化)など,ほとんどの検出カテゴリで優れた性能を示した。これらの結果は、CBEV-KANがより正確で、信頼性が高く、効率的であることを示し、動的かつ挑戦的な自動運転環境に理想的であることを示唆している。

関連論文リスト

SNAT-YOLO: Efficient Cross-Layer Aggregation Network for Edge-Oriented Gangue Detection [1.7948767405202701]
本モデルでは,石炭ガン検出作業において99.10%の精度で検出を行う。モデルサイズを38%減らし、パラメータ数を41%減らし、計算コストを40%減らし、画像毎の平均検出時間を1ミリ秒減らした。
論文参考訳（メタデータ） (2025-02-09T18:39:35Z)
RobMOT: Robust 3D Multi-Object Tracking by Observational Noise and State Estimation Drift Mitigation on LiDAR PointCloud [11.111388829965103]
本稿では,3次元トラッキング・バイ・検出手法の限界,特に正当な軌跡の同定について論じる。既存の手法では、しきい値に基づくフィルタリングを検出スコアに用いており、遠方や隠蔽対象で失敗することがある。ゴーストトラックを著しく低減する,新しい軌道妥当性機構と多段階観測ゲーティングプロセスを提案する。
論文参考訳（メタデータ） (2024-05-19T12:49:21Z)
Patch-Level Contrasting without Patch Correspondence for Accurate and Dense Contrastive Representation Learning [79.43940012723539]
ADCLRは、正確で高密度な視覚表現を学習するための自己教師型学習フレームワークである。提案手法は, コントラッシブな手法のための新しい最先端性能を実現する。
論文参考訳（メタデータ） (2023-06-23T07:38:09Z)
UncLe-SLAM: Uncertainty Learning for Dense Neural SLAM [60.575435353047304]
我々は、高密度ニューラルネットワークの同時局所化とマッピング(SLAM)のための不確実性学習フレームワークを提案する。本稿では,2次元入力データのみから自己教師付きで学習可能なセンサ不確実性推定のためのオンラインフレームワークを提案する。
論文参考訳（メタデータ） (2023-06-19T16:26:25Z)
Learned Two-Plane Perspective Prior based Image Resampling for Efficient Object Detection [20.886999159134138]
リアルタイムの効率的な認識は、自律的なナビゲーションと都市規模のセンシングに不可欠である。本研究では,3次元シーンの粗い形状を取り入れた学習可能な幾何学誘導先行手法を提案する。提案手法は,4.1 $AP_S$ または +39% で検出率を向上し,また,4.3 $sAP_S$ または +63% で検出性能を向上する。
論文参考訳（メタデータ） (2023-03-25T00:43:44Z)
Research on road object detection algorithm based on improved YOLOX [3.5539647094032705]
道路物体検出においては,小型物体と閉塞物体の除去が重要な問題である。本稿では,予測ボックスと実ボックスの形状整合性を改善するために,DecIoU境界ボックス回帰損失関数を提案し,Push Lossを導入して境界ボックス回帰損失関数をさらに最適化する。 KITTIデータセットに対する多数の実験により,提案手法の有効性が示された。
論文参考訳（メタデータ） (2023-02-16T08:58:42Z)
ERNIE-SPARSE: Learning Hierarchical Efficient Transformer Through Regularized Self-Attention [48.697458429460184]
情報ボトルネック感度と異なる注目トポロジ間の不整合の2つの要因がスパース変換器の性能に影響を及ぼす可能性がある。本稿では,ERNIE-Sparseというモデルを提案する。 i) 局所情報とグローバル情報を逐次統一する階層スパース変換器(HST) と、(ii) 注意トポロジの異なる変換器の距離を最小化する自己注意正規化(SAR) の2つの特徴がある。
論文参考訳（メタデータ） (2022-03-23T08:47:01Z)
PP-PicoDet: A Better Real-Time Object Detector on Mobile Devices [13.62426382827205]
実時間物体検出器のPP-PicoDetファミリは,モバイルデバイスの物体検出において優れた性能を発揮する。モデルは、他の一般的なモデルと比較して、精度とレイテンシのトレードオフを改善する。
論文参考訳（メタデータ） (2021-11-01T12:53:17Z)
Small Object Detection Based on Modified FSSD and Model Compression [7.387639662781843]
本稿では,FSSDに基づく小型物体検出アルゴリズムを提案する。計算コストと記憶空間を削減するため, モデル圧縮を実現するためにプルーニングを行う。アルゴリズムの平均精度(mAP)は、PASCAL VOCで80.4%、GTX1080tiで59.5 FPSに達する。
論文参考訳（メタデータ） (2021-08-24T03:20:32Z)
Uncertainty-Aware Camera Pose Estimation from Points and Lines [101.03675842534415]
Perspective-n-Point-and-Line (Pn$PL) は、2D-3D特徴座標の3Dモデルに関して、高速で正確で堅牢なカメラローカライゼーションを目指している。
論文参考訳（メタデータ） (2021-07-08T15:19:36Z)
PLUME: Efficient 3D Object Detection from Stereo Images [95.31278688164646]
既存の手法では、2つのステップでこの問題に対処する: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。この2つのタスクを同一のメトリック空間で統一するモデルを提案する。提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。
論文参考訳（メタデータ） (2021-01-17T05:11:38Z)
ADAHESSIAN: An Adaptive Second Order Optimizer for Machine Learning [91.13797346047984]
本稿では,2次最適化アルゴリズムであるADAHESSIANを紹介する。 ADAHESSIANは、他の適応最適化手法と比較して、新しい最先端の成果を大きなマージンで達成することを示す。
論文参考訳（メタデータ） (2020-06-01T05:00:51Z)
Detection of 3D Bounding Boxes of Vehicles Using Perspective Transformation for Accurate Speed Measurement [3.8073142980733]
交通監視カメラで捉えた車両の3次元境界ボックス検出のためのアルゴリズムの改良版を提案する。我々のアルゴリズムは、探索されたシーンの点の既知の幾何を利用して視点変換を構築する。他の最先端の完全自動結果と比較して、我々のアルゴリズムは平均絶対速度測定誤差を32%(1.10 km/hから0.75 km/h)、絶対中央値誤差を40%(0.97 km/hから0.58 km/h)削減する。
論文参考訳（メタデータ） (2020-03-29T21:01:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。