論文の概要: Improved Pillar with Fine-grained Feature for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2110.06049v1
- Date: Tue, 12 Oct 2021 14:53:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-13 14:50:21.808380
- Title: Improved Pillar with Fine-grained Feature for 3D Object Detection
- Title(参考訳): 3次元物体検出のための細粒度特徴付き柱の改良
- Authors: Jiahui Fu, Guanghui Ren, Yunpeng Chen, Si Liu
- Abstract要約: LiDAR点雲を用いた3次元物体検出は、自律走行知覚モジュールにおいて重要な役割を果たす。
既存の点ベースの手法は、生の点が多すぎるため、速度要件に到達するのが困難である。
PointPillarのような2Dグリッドベースの手法は、単純な2D畳み込みに基づいて、安定的で効率的な速度を容易に達成できる。
- 参考スコア(独自算出の注目度): 23.348710029787068
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D object detection with LiDAR point clouds plays an important role in
autonomous driving perception module that requires high speed, stability and
accuracy. However, the existing point-based methods are challenging to reach
the speed requirements because of too many raw points, and the voxel-based
methods are unable to ensure stable speed because of the 3D sparse convolution.
In contrast, the 2D grid-based methods, such as PointPillar, can easily achieve
a stable and efficient speed based on simple 2D convolution, but it is hard to
get the competitive accuracy limited by the coarse-grained point clouds
representation. So we propose an improved pillar with fine-grained feature
based on PointPillar that can significantly improve detection accuracy. It
consists of two modules, including height-aware sub-pillar and sparsity-based
tiny-pillar, which get fine-grained representation respectively in the vertical
and horizontal direction of 3D space. For height-aware sub-pillar, we introduce
a height position encoding to keep height information of each sub-pillar during
projecting to a 2D pseudo image. For sparsity-based tiny-pillar, we introduce
sparsity-based CNN backbone stacked by dense feature and sparse attention
module to extract feature with larger receptive field efficiently. Experimental
results show that our proposed method significantly outperforms previous
state-of-the-art 3D detection methods on the Waymo Open Dataset. The related
code will be released to facilitate the academic and industrial study.
- Abstract(参考訳): LiDAR点雲を用いた3次元物体検出は、高速、安定性、精度を必要とする自律走行認識モジュールにおいて重要な役割を果たす。
しかし,既存の点ベース法は生の点が多すぎるため速度要件に到達することは困難であり,ボクセル法は3次元スパース畳み込みにより安定な速度を確保できない。
対照的に、pointpillarのような2dグリッドベースの手法は、単純な2d畳み込みに基づく安定かつ効率的な速度を容易に達成できるが、粗粒度点雲表現による競合精度の制限は困難である。
そこで我々は,pointpillarに基づく細粒度で検出精度が大幅に向上した柱を提案する。
高さを認識できるサブピラーと、空間の垂直方向と水平方向にそれぞれ細粒度を表現できるスペーサベースの小さなピラーの2つのモジュールで構成されている。
高さ認識サブピラーについては、2次元擬似画像に投影する際に各サブピラーの高さ情報を保持する高さ位置符号化を導入する。
疎度をベースとした小型ピラーでは,高密度特徴と疎度注意モジュールを積み重ねたスポーシティベースCNNバックボーンを導入し,より広い受容野を持つ特徴を効率よく抽出する。
実験の結果,提案手法はwaymo open datasetにおける最先端の3d検出手法を大幅に上回ることがわかった。
関連するコードは、学術および産業研究を促進するためにリリースされます。
関連論文リスト
- CVFNet: Real-time 3D Object Detection by Learning Cross View Features [11.402076835949824]
CVFNetと呼ばれるリアルタイムビューベースの1段3Dオブジェクト検出器を提案する。
本稿ではまず,複数の段階において,ポイント・アンド・レンジ・ビュー機能を深く統合した新しいポイント・ラウンジ機能融合モジュールを提案する。
次に, 得られた深度視点特徴を鳥の目視に変換する際に, 3次元形状を良好に維持する特別のスライスピラーを設計する。
論文 参考訳(メタデータ) (2022-03-13T06:23:18Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - Anchor-free 3D Single Stage Detector with Mask-Guided Attention for
Point Cloud [79.39041453836793]
我々は、点雲をアンカーフリーで検出する新しい1段3次元検出器を開発した。
ボクセルをベースとしたスパース3D特徴量からスパース2D特徴量マップに変換することでこれを克服する。
検出信頼度スコアとバウンディングボックス回帰の精度との相関性を改善するために,IoUに基づく検出信頼度再校正手法を提案する。
論文 参考訳(メタデータ) (2021-08-08T13:42:13Z) - DV-Det: Efficient 3D Point Cloud Object Detection with Dynamic
Voxelization [0.0]
本稿では,効率的な3Dポイント・クラウド・オブジェクト検出のための新しい2段階フレームワークを提案する。
生のクラウドデータを3D空間で直接解析するが、目覚ましい効率と精度を実現する。
我々は,75 FPSでKITTI 3Dオブジェクト検出データセットを,25 FPSの推論速度で良好な精度でOpenデータセット上で強調する。
論文 参考訳(メタデータ) (2021-07-27T10:07:39Z) - PLUME: Efficient 3D Object Detection from Stereo Images [95.31278688164646]
既存の手法では、2つのステップでこの問題に対処する: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。
この2つのタスクを同一のメトリック空間で統一するモデルを提案する。
提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-17T05:11:38Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR
Segmentation [81.02742110604161]
大規模運転シーンのLiDARセグメンテーションのための最先端の手法は、しばしば点雲を2次元空間に投影し、2D畳み込みによって処理する。
そこで我々は,3次元幾何学的パタンを探索するために,円筒分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
提案手法はセマンティックKITTIのリーダーボードにおいて第1位を獲得し,既存のnuScenesの手法を約4%のマージンで上回っている。
論文 参考訳(メタデータ) (2020-11-19T18:53:11Z) - Multi Projection Fusion for Real-time Semantic Segmentation of 3D LiDAR
Point Clouds [2.924868086534434]
本稿では,ポイントクラウドの複数のプロジェクションを利用する3次元ポイントクラウドセマンティックセマンティックセマンティクスの新しいアプローチを提案する。
我々のMulti-Projection Fusionフレームワークは、2つの異なる高効率2次元完全畳み込みモデルを用いて球面および鳥眼の視射影を解析する。
論文 参考訳(メタデータ) (2020-11-03T19:40:43Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic
Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。
3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。
我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文 参考訳(メタデータ) (2020-08-04T13:56:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。