論文の概要: Pyramid R-CNN: Towards Better Performance and Adaptability for 3D Object
Detection
- arxiv url: http://arxiv.org/abs/2109.02499v1
- Date: Mon, 6 Sep 2021 14:17:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-07 20:59:27.965114
- Title: Pyramid R-CNN: Towards Better Performance and Adaptability for 3D Object
Detection
- Title(参考訳): ピラミッドR-CNN:3次元物体検出の性能と適応性向上に向けて
- Authors: Jiageng Mao and Minzhe Niu and Haoyue Bai and Xiaodan Liang and Hang
Xu and Chunjing Xu
- Abstract要約: 点雲から2段階の3Dオブジェクトを検出するための柔軟で高性能なフレームワークであるPraamid R-CNNを提案する。
興味の疎い点から特徴を適応的に学習するために,ピラミッドRoIヘッドという新しい第2段モジュールを提案する。
我々のピラミッドRoIヘッドはスパースかつ不均衡な状況に対して堅牢であり、検出性能を継続的に向上するために様々な3Dバックボーンに適用することができる。
- 参考スコア(独自算出の注目度): 89.66162518035144
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present a flexible and high-performance framework, named Pyramid R-CNN,
for two-stage 3D object detection from point clouds. Current approaches
generally rely on the points or voxels of interest for RoI feature extraction
on the second stage, but cannot effectively handle the sparsity and non-uniform
distribution of those points, and this may result in failures in detecting
objects that are far away. To resolve the problems, we propose a novel
second-stage module, named pyramid RoI head, to adaptively learn the features
from the sparse points of interest. The pyramid RoI head consists of three key
components. Firstly, we propose the RoI-grid Pyramid, which mitigates the
sparsity problem by extensively collecting points of interest for each RoI in a
pyramid manner. Secondly, we propose RoI-grid Attention, a new operation that
can encode richer information from sparse points by incorporating conventional
attention-based and graph-based point operators into a unified formulation.
Thirdly, we propose the Density-Aware Radius Prediction (DARP) module, which
can adapt to different point density levels by dynamically adjusting the
focusing range of RoIs. Combining the three components, our pyramid RoI head is
robust to the sparse and imbalanced circumstances, and can be applied upon
various 3D backbones to consistently boost the detection performance. Extensive
experiments show that Pyramid R-CNN outperforms the state-of-the-art 3D
detection models by a large margin on both the KITTI dataset and the Waymo Open
dataset.
- Abstract(参考訳): 点雲から2段階の3Dオブジェクトを検出するための柔軟で高性能なフレームワークであるPraamid R-CNNを提案する。
現在のアプローチは一般に第2段階におけるRoI特徴抽出の関心点やボクセルに依存しているが、これらの点の空間分布や非一様分布を効果的に扱えないため、遠くにある物体を検出するのに失敗する可能性がある。
この問題を解決するために,ピラミッドRoIヘッドと呼ばれる新しい第2段モジュールを提案し,興味の疎い点から特徴を適応的に学習する。
ピラミッドRoIヘッドは3つのキーコンポーネントで構成されている。
まず,ピラミッド方式で各RoIの関心点を広範囲に集めることで,空間問題を緩和するRoIグリッドピラミッドを提案する。
第2に,従来の注目型およびグラフベースの点演算子を統一的な定式化に組み込むことで,スパースポイントからリッチな情報をエンコードできる新しい操作であるRoI-grid Attentionを提案する。
第3に,roisの集束範囲を動的に調整することにより,異なる点密度レベルに適応可能な密度認識半径予測(darp)モジュールを提案する。
3つのコンポーネントを組み合わせることで、ピラミッドRoIヘッドはスパースかつ不均衡な状況に対して堅牢であり、さまざまな3Dバックボーンに適用することで、検出性能を継続的に向上させることができる。
大規模な実験によると、Praamid R-CNNは、KITTIデータセットとWaymo Openデータセットの両方で最先端の3D検出モデルよりも大きなマージンで優れている。
関連論文リスト
- Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - PG-RCNN: Semantic Surface Point Generation for 3D Object Detection [19.341260543105548]
ポイントジェネレーションR-CNN(PG-RCNN)は、3次元物体検出のための新しいエンドツーエンド検出器である。
共同でトレーニングされたRoIポイント生成モジュールを使用して、RoIのコンテキスト情報を処理する。
PG-RCNNは生成された全ての点について、推定された前景確率を示す意味的特徴を割り当てる。
論文 参考訳(メタデータ) (2023-07-24T09:22:09Z) - R2Det: Redemption from Range-view for Accurate 3D Object Detection [16.855672228478074]
Reemption from Range-view Module (R2M) は2次元視野から3次元視点への3次元表面テクスチャ強化のためのプラグアンドプレイアプローチである。
R2Mは、最先端のLiDARベースの3Dオブジェクト検出器を前処理としてシームレスに統合することができる。
論文 参考訳(メタデータ) (2023-07-21T10:36:05Z) - CAGroup3D: Class-Aware Grouping for 3D Object Detection on Point Clouds [55.44204039410225]
本稿では,CAGroup3Dという新しい2段階完全スパース3Dオブジェクト検出フレームワークを提案する。
提案手法は,まず,オブジェクト表面のボクセル上でのクラス認識型局所群戦略を活用することによって,高品質な3D提案を生成する。
不正なボクセルワイドセグメンテーションにより欠落したボクセルの特徴を回復するために,完全にスパースな畳み込み型RoIプールモジュールを構築した。
論文 参考訳(メタデータ) (2022-10-09T13:38:48Z) - FusionRCNN: LiDAR-Camera Fusion for Two-stage 3D Object Detection [11.962073589763676]
既存の3D検出器は、2段階のパラダイムを採用することで精度を大幅に向上させる。
特に遠く離れた地点では、点雲の広がりは、LiDARのみの精製モジュールがオブジェクトを正確に認識し、配置することを困難にしている。
We propose a novel multi-modality two-stage approach called FusionRCNN, which is effective and efficient fuses point clouds and camera image in the Regions of Interest(RoI)。
FusionRCNNは、強力なSECONDベースラインを6.14%のmAPで大幅に改善し、競合する2段階アプローチよりも優れている。
論文 参考訳(メタデータ) (2022-09-22T02:07:25Z) - Graph R-CNN: Towards Accurate 3D Object Detection with
Semantic-Decorated Local Graph [26.226885108862735]
2段検出器は3次元物体検出で大いに人気を博している。
ほとんどの2段式3D検出器は、2段目のRoI特徴抽出にグリッドポイント、ボクセルグリッド、またはサンプルキーポイントを利用する。
本稿ではこの問題を3つの側面で解決する。
論文 参考訳(メタデータ) (2022-08-07T02:56:56Z) - DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection [83.18142309597984]
ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。
我々はDeepFusionという名前の汎用マルチモーダル3D検出モデル群を開発した。
論文 参考訳(メタデータ) (2022-03-15T18:46:06Z) - M3DSSD: Monocular 3D Single Stage Object Detector [82.25793227026443]
特徴アライメントと非対称非局所的注意を有するモノクロ3次元単段物体検出器(M3DSSD)を提案する。
提案したM3DSSDは,KITTIデータセット上のモノラルな3Dオブジェクト検出手法よりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2021-03-24T13:09:11Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z) - Scale-Equalizing Pyramid Convolution for Object Detection [22.516829622445062]
特徴ピラミッドは、異なるスケールで特徴を抽出する効率的な方法である。
このことに触発されて、ピラミッドレベルの畳み込みが提案され、これはピラミッド畳み込みと呼ばれ、修正された3次元畳み込みである。
積み重ねられたピラミッド畳み込みは直接3次元(スケールと空間)の特徴を抽出し、細心の注意を払って設計された他の特徴融合モジュールより優れている。
論文 参考訳(メタデータ) (2020-05-06T19:34:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。