論文の概要: PAN: Pillars-Attention-Based Network for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2509.15935v2
- Date: Wed, 01 Oct 2025 08:20:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 17:16:29.740952
- Title: PAN: Pillars-Attention-Based Network for 3D Object Detection
- Title(参考訳): PAN:3Dオブジェクト検出のためのピラーアテンションベースネットワーク
- Authors: Ruan Bispo, Dane Mitrev, Letizia Mariotti, Clément Botty, Denver Humphrey, Anthony Scanlan, Ciarán Eising,
- Abstract要約: 本研究では,鳥眼ビュー(BEV)におけるカメラとレーダーを用いた新しい3次元物体検出アルゴリズムを提案する。
我々のアルゴリズムは、特徴を検知ヘッドに融合する前にレーダーの利点を利用する。
新しいバックボーンが導入され、レーダー柱の特徴を埋め込み次元にマッピングする。
- 参考スコア(独自算出の注目度): 3.3274570204477922
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Camera-radar fusion offers a robust and low-cost alternative to Camera-lidar fusion for the 3D object detection task in real-time under adverse weather and lighting conditions. However, currently, in the literature, it is possible to find few works focusing on this modality and, most importantly, developing new architectures to explore the advantages of the radar point cloud, such as accurate distance estimation and speed information. Therefore, this work presents a novel and efficient 3D object detection algorithm using cameras and radars in the bird's-eye-view (BEV). Our algorithm exploits the advantages of radar before fusing the features into a detection head. A new backbone is introduced, which maps the radar pillar features into an embedded dimension. A self-attention mechanism allows the backbone to model the dependencies between the radar points. We are using a simplified convolutional layer to replace the FPN-based convolutional layers used in the PointPillars-based architectures with the main goal of reducing inference time. Our results show that with this modification, our approach achieves the new state-of-the-art in the 3D object detection problem, reaching 58.2 of the NDS metric for the use of ResNet-50, while also setting a new benchmark for inference time on the nuScenes dataset for the same category.
- Abstract(参考訳): カメラレーダーフュージョンは、悪天候や照明条件下でリアルタイムに3Dオブジェクト検出タスクのために、カメラライダーフュージョンの堅牢で低コストな代替手段を提供する。
しかし、現在の文献では、このモダリティに焦点を当てた研究はほとんど見られず、最も重要なのが、正確な距離推定や速度情報など、レーダーポイント雲の利点を探求する新しいアーキテクチャの開発である。
そこで本研究では,鳥眼ビュー(BEV)におけるカメラとレーダーを用いた,新規で効率的な3次元物体検出アルゴリズムを提案する。
我々のアルゴリズムは、特徴を検知ヘッドに融合する前にレーダーの利点を利用する。
新しいバックボーンが導入され、レーダー柱の特徴を埋め込み次元にマッピングする。
自己注意機構により、バックボーンはレーダーポイント間の依存関係をモデル化することができる。
私たちはシンプルな畳み込みレイヤを使用して、PointPillarsベースのアーキテクチャで使用されるFPNベースの畳み込みレイヤを、推論時間を短縮する主な目標に置き換えています。
提案手法は,ResNet-50を用いてNDS測定値の58.2に達するとともに,同じカテゴリのnuScenesデータセット上での推論時間に関する新しいベンチマークを設定できることを示す。
関連論文リスト
- Revisiting Radar Camera Alignment by Contrastive Learning for 3D Object Detection [31.69508809666884]
レーダとカメラ融合に基づく3次元物体検出アルゴリズムは優れた性能を示した。
レーダカメラアライメント(RCAlign)と呼ばれる新しいアライメントモデルを提案する。
具体的には、対向学習に基づくデュアルルートアライメント(DRA)モジュールを設計し、レーダとカメラの機能の整合と融合を図る。
レーダBEV特性の空間性を考慮すると,レーダBEV特性の密度化を改善するためにRFEモジュールが提案されている。
論文 参考訳(メタデータ) (2025-04-23T02:41:43Z) - RobuRCDet: Enhancing Robustness of Radar-Camera Fusion in Bird's Eye View for 3D Object Detection [68.99784784185019]
暗い照明や悪天候はカメラの性能を低下させる。
レーダーは騒音と位置のあいまいさに悩まされる。
本稿では,BEVの頑健な物体検出モデルであるRobuRCDetを提案する。
論文 参考訳(メタデータ) (2025-02-18T17:17:38Z) - SpaRC: Sparse Radar-Camera Fusion for 3D Object Detection [5.36022165180739]
本稿では,マルチビュー画像セマンティクスとレーダとカメラポイント機能を統合した3次元認識のための新しいスパース融合変換器であるSpaRCを提案する。
nuScenes と TruckScenes のベンチマークに関する実証的な評価は、SpaRC が既存の密度の高い BEV ベースおよびスパースクエリベースの検出器より著しく優れていることを示している。
論文 参考訳(メタデータ) (2024-11-29T17:17:38Z) - RCBEVDet++: Toward High-accuracy Radar-Camera Fusion 3D Perception Network [34.45694077040797]
本稿では、BEEVDetと呼ばれるレーダーカメラ融合3Dオブジェクト検出フレームワークを提案する。
RadarBEVNetは、スパースレーダーポイントを高密度の鳥の目視特徴に符号化する。
提案手法は,3次元オブジェクト検出,BEVセマンティックセグメンテーション,および3次元マルチオブジェクト追跡タスクにおいて,最先端のレーダカメラ融合を実現する。
論文 参考訳(メタデータ) (2024-09-08T05:14:27Z) - GET-UP: GEomeTric-aware Depth Estimation with Radar Points UPsampling [7.90238039959534]
既存のアルゴリズムは3Dポイントを画像面に投影してレーダデータを処理し、画素レベルの特徴抽出を行う。
レーダデータから2次元情報と3次元情報を交換・集約するために,注目度の高いグラフニューラルネットワーク(GNN)を利用するGET-UPを提案する。
提案したGET-UPをnuScenesデータセット上でベンチマークし,従来最高のパフォーマンスモデルよりも15.3%,14.7%改善した。
論文 参考訳(メタデータ) (2024-09-02T14:15:09Z) - FastPillars: A Deployment-friendly Pillar-based 3D Detector [63.0697065653061]
既存のBEVベースの(つまりバードアイビュー)検出器は、トレーニングと推論を高速化するためにスパース・コンボリューション(SPConv)を好む。
FastPillarsは、CenterPoint(SPConvベース)よりも1.8倍のスピードアップと3.8mAPH/L2の改善で、Openデータセットの最先端の精度を提供する
論文 参考訳(メタデータ) (2023-02-05T12:13:27Z) - DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。
マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文 参考訳(メタデータ) (2022-12-15T14:18:47Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。