論文の概要: RangeRCNN: Towards Fast and Accurate 3D Object Detection with Range
Image Representation
- arxiv url: http://arxiv.org/abs/2009.00206v2
- Date: Tue, 23 Mar 2021 06:53:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-23 01:20:35.703599
- Title: RangeRCNN: Towards Fast and Accurate 3D Object Detection with Range
Image Representation
- Title(参考訳): RangeRCNN:Range Image Representationによる高速かつ高精度な3Dオブジェクト検出を目指して
- Authors: Zhidong Liang, Ming Zhang, Zehan Zhang, Xian Zhao, Shiliang Pu
- Abstract要約: RangeRCNNは、レンジ画像表現に基づく、新しく効果的な3Dオブジェクト検出フレームワークである。
本稿では,拡張残差ブロック(DRB)を用いて,異なる物体スケールを適応させ,よりフレキシブルな受容場を得る。
実験によると、RangeRCNNはKITTIデータセットとOpenデータセットで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 35.6155506566957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present RangeRCNN, a novel and effective 3D object detection framework
based on the range image representation. Most existing methods are voxel-based
or point-based. Though several optimizations have been introduced to ease the
sparsity issue and speed up the running time, the two representations are still
computationally inefficient. Compared to them, the range image representation
is dense and compact which can exploit powerful 2D convolution. Even so, the
range image is not preferred in 3D object detection due to scale variation and
occlusion. In this paper, we utilize the dilated residual block (DRB) to better
adapt different object scales and obtain a more flexible receptive field.
Considering scale variation and occlusion, we propose the RV-PV-BEV (range
view-point view-bird's eye view) module to transfer features from RV to BEV.
The anchor is defined in BEV which avoids scale variation and occlusion.
Neither RV nor BEV can provide enough information for height estimation;
therefore, we propose a two-stage RCNN for better 3D detection performance. The
aforementioned point view not only serves as a bridge from RV to BEV but also
provides pointwise features for RCNN. Experiments show that RangeRCNN achieves
state-of-the-art performance on the KITTI dataset and the Waymo Open dataset,
and provides more possibilities for real-time 3D object detection. We further
introduce and discuss the data augmentation strategy for the range image based
method, which will be very valuable for future research on range image.
- Abstract(参考訳): 本研究では,レンジ画像表現に基づく新しい3次元オブジェクト検出フレームワークであるRangeRCNNを提案する。
既存のメソッドのほとんどはvoxelベースまたはpointベースである。
スパーシティの問題を緩和し、実行時間を高速化するためにいくつかの最適化が導入されたが、この2つの表現は依然として計算効率に欠ける。
それと比較して、レンジ画像表現は密度が高くコンパクトであり、強力な2次元畳み込みを利用することができる。
それでも、スケールのばらつきや閉塞による3次元物体検出では、レンジ画像は好ましくない。
本稿では,拡張残差ブロック(DRB)を用いて,異なる物体スケールを適応させ,より柔軟な受容場を得る。
スケールの変動と閉塞を考慮したRV-PV-BEV (range view-point view-bird's eye view) モジュールを提案する。
アンカーはbevで定義され、スケールのばらつきや閉塞を避ける。
RVもBEVも高度推定に十分な情報を提供していないため,より優れた3次元検出性能を示す2段RCNNを提案する。
上記のポイントビューは、RVからBEVへのブリッジとして機能するだけでなく、RCNNのポイントワイズ機能も提供する。
実験の結果、RangeRCNNはKITTIデータセットとWaymo Openデータセットで最先端のパフォーマンスを実現しており、リアルタイム3Dオブジェクト検出の可能性がさらに高められている。
さらに,今後の範囲画像研究に非常に有用な範囲画像ベース手法のデータ拡張戦略についても紹介し,検討する。
関連論文リスト
- What Matters in Range View 3D Object Detection [15.147558647138629]
ライダーベースの知覚パイプラインは複雑なシーンを解釈するために3Dオブジェクト検出モデルに依存している。
過去のレンジビュー文献に提案されている複数の手法を使わずに、レンジビュー3次元オブジェクト検出モデル間の最先端を実現する。
論文 参考訳(メタデータ) (2024-07-23T18:42:37Z) - WidthFormer: Toward Efficient Transformer-based BEV View Transformation [21.10523575080856]
WidthFormerは、リアルタイム自動運転アプリケーションのためのマルチビューカメラからBirdのEye-View(BEV)表現を計算するトランスフォーマーベースのモジュールである。
まず,3次元幾何情報を正確にカプセル化できる新しい3次元位置符号化機構を提案する。
次に,特徴圧縮による潜在的な情報損失を補償する2つのモジュールを開発する。
論文 参考訳(メタデータ) (2024-01-08T11:50:23Z) - VPIT: Real-time Embedded Single Object 3D Tracking Using Voxel Pseudo Images [90.60881721134656]
本稿では,Voxel Pseudo Image Tracking (VPIT) という,Voxel-based 3D Single Object Tracking (3D SOT) 手法を提案する。
KITTI追跡データセットの実験は、VPITが最速の3D SOT法であり、競合的な成功と精度の値を維持することを示している。
論文 参考訳(メタデータ) (2022-06-06T14:02:06Z) - VPFNet: Improving 3D Object Detection with Virtual Point based LiDAR and
Stereo Data Fusion [62.24001258298076]
VPFNetは、ポイントクラウドとイメージデータを仮想のポイントで巧みに調整し集約する新しいアーキテクチャである。
当社のVPFNetは,KITTIテストセットで83.21%の中等度3D AP,91.86%中等度BEV APを達成し,2021年5月21日以来の1位となった。
論文 参考訳(メタデータ) (2021-11-29T08:51:20Z) - RAANet: Range-Aware Attention Network for LiDAR-based 3D Object
Detection with Auxiliary Density Level Estimation [11.180128679075716]
自律運転のためのLiDARデータから3Dオブジェクトを検出するために,Range-Aware Attention Network (RAANet) が開発された。
RAANetはより強力なBEV機能を抽出し、優れた3Dオブジェクト検出を生成する。
nuScenesデータセットの実験により,提案手法がLiDARを用いた3Dオブジェクト検出の最先端手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-11-18T04:20:13Z) - RangeDet:In Defense of Range View for LiDAR-based 3D Object Detection [48.76483606935675]
アンカーフリーの単段LiDARベースの3Dオブジェクト検出器であるRangeDetを提案する。
一般的に使用されるVoxelizedまたはBird's Eye View(BEV)表現と比較して、範囲ビュー表現はよりコンパクトで量子化エラーはありません。
私達の最もよいモデルは車/歩行者/サイクリストの72.9/75.9/65.8 3D APを達成します。
論文 参考訳(メタデータ) (2021-03-18T06:18:51Z) - PV-RCNN++: Point-Voxel Feature Set Abstraction With Local Vector
Representation for 3D Object Detection [100.60209139039472]
点雲からの正確な3次元検出を行うために,PointVoxel Region based Convolution Neural Networks (PVRCNNs)を提案する。
提案するPV-RCNNは,Openデータセットと高競争性KITTIベンチマークの両方において,従来の最先端3D検出方法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-01-31T14:51:49Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z) - ZoomNet: Part-Aware Adaptive Zooming Neural Network for 3D Object
Detection [69.68263074432224]
ステレオ画像に基づく3D検出のためのZoomNetという新しいフレームワークを提案する。
ZoomNetのパイプラインは、通常の2Dオブジェクト検出モデルから始まり、左右のバウンディングボックスのペアを取得するために使用される。
さらに,RGB画像のテクスチャキューを多用し,より正確な異質度推定を行うため,適応ズームという概念的に真直ぐなモジュールを導入する。
論文 参考訳(メタデータ) (2020-03-01T17:18:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。