論文の概要: RAANet: Range-Aware Attention Network for LiDAR-based 3D Object
Detection with Auxiliary Density Level Estimation
- arxiv url: http://arxiv.org/abs/2111.09515v1
- Date: Thu, 18 Nov 2021 04:20:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-19 14:17:32.470701
- Title: RAANet: Range-Aware Attention Network for LiDAR-based 3D Object
Detection with Auxiliary Density Level Estimation
- Title(参考訳): RAANet:補助密度レベル推定によるLiDARに基づく3次元物体検出のためのレンジアウェアアテンションネットワーク
- Authors: Yantao Lu, Xuetao Hao, Shiqi Sun, Weiheng Chai, Muchenxuan Tong, Senem
Velipasalar
- Abstract要約: 自律運転のためのLiDARデータから3Dオブジェクトを検出するために,Range-Aware Attention Network (RAANet) が開発された。
RAANetはより強力なBEV機能を抽出し、優れた3Dオブジェクト検出を生成する。
nuScenesデータセットの実験により,提案手法がLiDARを用いた3Dオブジェクト検出の最先端手法より優れていることが示された。
- 参考スコア(独自算出の注目度): 11.180128679075716
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: 3D object detection from LiDAR data for autonomous driving has been making
remarkable strides in recent years. Among the state-of-the-art methodologies,
encoding point clouds into a bird's-eye view (BEV) has been demonstrated to be
both effective and efficient. Different from perspective views, BEV preserves
rich spatial and distance information between objects; and while farther
objects of the same type do not appear smaller in the BEV, they contain sparser
point cloud features. This fact weakens BEV feature extraction using
shared-weight convolutional neural networks. In order to address this
challenge, we propose Range-Aware Attention Network (RAANet), which extracts
more powerful BEV features and generates superior 3D object detections. The
range-aware attention (RAA) convolutions significantly improve feature
extraction for near as well as far objects. Moreover, we propose a novel
auxiliary loss for density estimation to further enhance the detection accuracy
of RAANet for occluded objects. It is worth to note that our proposed RAA
convolution is lightweight and compatible to be integrated into any CNN
architecture used for the BEV detection. Extensive experiments on the nuScenes
dataset demonstrate that our proposed approach outperforms the state-of-the-art
methods for LiDAR-based 3D object detection, with real-time inference speed of
16 Hz for the full version and 22 Hz for the lite version. The code is publicly
available at an anonymous Github repository
https://github.com/anonymous0522/RAAN.
- Abstract(参考訳): 自動運転のためのLiDARデータからの3Dオブジェクト検出は、近年顕著な進歩を遂げている。
最先端の手法では、鳥眼ビュー(BEV)に点雲を符号化することが効果的かつ効果的であることが示されている。
ビュービューと異なり、BEVはオブジェクト間の豊富な空間情報と距離情報を保存し、同じタイプのオブジェクトはBEVでは小さく見えないが、スペーサー点雲の特徴を含んでいる。
この事実は、共有重畳み込みニューラルネットワークを用いたBEV特徴抽出を弱める。
この課題に対処するために,より強力なbev特徴を抽出し,優れた3dオブジェクト検出を生成する範囲認識アテンションネットワーク(raanet)を提案する。
RAA(Range-Aware attention)畳み込みは、近距離および遠距離物体の特徴抽出を著しく改善する。
さらに, 隠蔽対象に対するRAANetの検出精度を高めるために, 密度推定のための新たな補助損失を提案する。
提案したRAA畳み込みは軽量で互換性があり,BEV検出に使用されるCNNアーキテクチャに統合可能である点に注意が必要だ。
nuScenesデータセットの大規模な実験により,提案手法はLiDARを用いた3Dオブジェクト検出の最先端手法よりも優れており,実時間での推測速度はフルバージョンで16Hz,ライトバージョンで22Hzであることがわかった。
コードは匿名のGithubリポジトリhttps://github.com/anonymous0522/RAANで公開されている。
関連論文リスト
- Approaching Outside: Scaling Unsupervised 3D Object Detection from 2D Scene [22.297964850282177]
教師なし3次元検出のためのLiDAR-2D Self-paced Learning (LiSe)を提案する。
RGB画像は、正確な2Dローカライゼーションキューを提供するLiDARデータの貴重な補完となる。
本フレームワークでは,適応型サンプリングと弱いモデルアグリゲーション戦略を組み込んだ自己評価学習パイプラインを考案する。
論文 参考訳(メタデータ) (2024-07-11T14:58:49Z) - Find n' Propagate: Open-Vocabulary 3D Object Detection in Urban Environments [67.83787474506073]
我々は,現在のLiDARに基づく3Dオブジェクト検出システムの限界に対処する。
本稿では,3次元OVタスクに対する汎用textscFind n' Propagate アプローチを提案する。
我々は、新しいオブジェクトクラスに対する平均精度(AP)を最大3.97倍に向上させる。
論文 参考訳(メタデータ) (2024-03-20T12:51:30Z) - VirtualPainting: Addressing Sparsity with Virtual Points and
Distance-Aware Data Augmentation for 3D Object Detection [3.5259183508202976]
本稿では,カメラ画像を用いた仮想LiDAR点の生成を含む革新的なアプローチを提案する。
また、画像ベースセグメンテーションネットワークから得られる意味ラベルを用いて、これらの仮想点を強化する。
このアプローチは、様々な3Dフレームワークと2Dセマンティックセグメンテーションメソッドにシームレスに統合できる汎用的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-12-26T18:03:05Z) - Fully Sparse Fusion for 3D Object Detection [69.32694845027927]
現在広く使われているマルチモーダル3D検出法は、通常、密度の高いBird-Eye-View特徴マップを使用するLiDARベースの検出器上に構築されている。
完全にスパースなアーキテクチャは、長距離知覚において非常に効率的であるため、注目を集めている。
本稿では,新たに出現するフルスパースアーキテクチャにおいて,画像のモダリティを効果的に活用する方法を検討する。
論文 参考訳(メタデータ) (2023-04-24T17:57:43Z) - LiDAR-Based 3D Object Detection via Hybrid 2D Semantic Scene Generation [38.38852904444365]
本稿では,2次元空間における3次元環境のセマンティクスと幾何学の両方をエンコードするシーン表現を提案する。
私たちのシンプルで効果的なデザインは、ほとんどの最先端の3Dオブジェクト検出器に簡単に統合できます。
論文 参考訳(メタデータ) (2023-04-04T04:05:56Z) - OA-BEV: Bringing Object Awareness to Bird's-Eye-View Representation for
Multi-Camera 3D Object Detection [78.38062015443195]
OA-BEVは、BEVベースの3Dオブジェクト検出フレームワークにプラグインできるネットワークである。
提案手法は,BEV ベースラインに対する平均精度と nuScenes 検出スコアの両面で一貫した改善を実現する。
論文 参考訳(メタデータ) (2023-01-13T06:02:31Z) - BEV-MAE: Bird's Eye View Masked Autoencoders for Point Cloud
Pre-training in Autonomous Driving Scenarios [51.285561119993105]
自律運転におけるLiDARに基づく3Dオブジェクト検出のための,効率的なマスク付きオートエンコーダ事前学習フレームワークであるBEV-MAEを提案する。
具体的には、3Dエンコーダ学習特徴表現を導くために,鳥の目視(BEV)誘導マスキング戦略を提案する。
学習可能なポイントトークンを導入し、3Dエンコーダの一貫性のある受容的フィールドサイズを維持する。
論文 参考訳(メタデータ) (2022-12-12T08:15:03Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - Fully Convolutional One-Stage 3D Object Detection on LiDAR Range Images [96.66271207089096]
FCOS-LiDARは、自律走行シーンのLiDAR点雲のための完全な1段式3Dオブジェクト検出器である。
標準的な2Dコンボリューションを持つRVベースの3D検出器は、最先端のBEVベースの検出器と同等の性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-05-27T05:42:16Z) - RangeRCNN: Towards Fast and Accurate 3D Object Detection with Range
Image Representation [35.6155506566957]
RangeRCNNは、レンジ画像表現に基づく、新しく効果的な3Dオブジェクト検出フレームワークである。
本稿では,拡張残差ブロック(DRB)を用いて,異なる物体スケールを適応させ,よりフレキシブルな受容場を得る。
実験によると、RangeRCNNはKITTIデータセットとOpenデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-09-01T03:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。