論文の概要: SWFormer: Sparse Window Transformer for 3D Object Detection in Point
Clouds
- arxiv url: http://arxiv.org/abs/2210.07372v1
- Date: Thu, 13 Oct 2022 21:37:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 16:43:39.120217
- Title: SWFormer: Sparse Window Transformer for 3D Object Detection in Point
Clouds
- Title(参考訳): swformer: 点クラウドにおける3dオブジェクト検出のためのスパースウィンドウトランスフォーマ
- Authors: Pei Sun, Mingxing Tan, Weiyue Wang, Chenxi Liu, Fei Xia, Zhaoqi Leng,
and Dragomir Anguelov
- Abstract要約: ポイントクラウドにおける3Dオブジェクト検出は、現代のロボティクスと自律運転システムの中核となるコンポーネントである。
3Dオブジェクト検出の鍵となる課題は、3Dシーン内でのポイント占有のスパースな性質にある。
Sparse Window Transformer (SWFormer) を提案する。
- 参考スコア(独自算出の注目度): 44.635939022626744
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: 3D object detection in point clouds is a core component for modern robotics
and autonomous driving systems. A key challenge in 3D object detection comes
from the inherent sparse nature of point occupancy within the 3D scene. In this
paper, we propose Sparse Window Transformer (SWFormer ), a scalable and
accurate model for 3D object detection, which can take full advantage of the
sparsity of point clouds. Built upon the idea of window-based Transformers,
SWFormer converts 3D points into sparse voxels and windows, and then processes
these variable-length sparse windows efficiently using a bucketing scheme. In
addition to self-attention within each spatial window, our SWFormer also
captures cross-window correlation with multi-scale feature fusion and window
shifting operations. To further address the unique challenge of detecting 3D
objects accurately from sparse features, we propose a new voxel diffusion
technique. Experimental results on the Waymo Open Dataset show our SWFormer
achieves state-of-the-art 73.36 L2 mAPH on vehicle and pedestrian for 3D object
detection on the official test set, outperforming all previous single-stage and
two-stage models, while being much more efficient.
- Abstract(参考訳): ポイントクラウドにおける3dオブジェクト検出は、現代のロボットと自動運転システムのコアコンポーネントである。
3Dオブジェクト検出における重要な課題は、3Dシーン内でのポイント占有の特異な性質から生じる。
本稿では,sparse window transformer (swformer) を提案する。sparse window transformer (swformer ) は3次元物体検出のためのスケーラブルで高精度なモデルであり,点雲のスパース性を最大限に活用できる。
SWFormerはウィンドウベースのトランスフォーマーのアイデアに基づいて、3Dポイントをスパースボクセルとウィンドウに変換し、バケット方式でこれらの可変長のスパースウィンドウを効率的に処理する。
SWFormerは,各空間ウィンドウ内での自己注意に加えて,マルチスケール機能融合やウィンドウシフト操作とウィンドウ間の相関も捉える。
スパース特徴から正確に3d物体を検出するというユニークな課題をさらに解決するために,新しいボクセル拡散法を提案する。
waymo open datasetの実験結果によると、swformerは、車両と歩行者の最新の73.36 l2 maphを実現し、公式のテストセットで3dオブジェクトを検知し、従来の1段および2段のモデルよりも優れています。
関連論文リスト
- Sparse2Dense: Learning to Densify 3D Features for 3D Object Detection [85.08249413137558]
LiDARが生成する点雲は、最先端の3Dオブジェクト検出器の主要な情報源である。
小さい、遠く、不完全な点の少ない物体は、しばしば検出するのが困難である。
Sparse2Denseは、潜在空間における点雲の密度化を学習することで、3D検出性能を効率的に向上する新しいフレームワークである。
論文 参考訳(メタデータ) (2022-11-23T16:01:06Z) - Embracing Single Stride 3D Object Detector with Sparse Transformer [63.179720817019096]
自律走行のためのLiDARを用いた3次元物体検出では、物体サイズと入力シーンサイズとの比が2次元検出の場合に比べて有意に小さい。
多くの3D検出器は2D検出器の一般的な慣習に従っており、点雲の定量化後も特徴マップを分解する。
本稿では,SST(Single-stride Sparse Transformer)を提案する。
論文 参考訳(メタデータ) (2021-12-13T02:12:02Z) - Anchor-free 3D Single Stage Detector with Mask-Guided Attention for
Point Cloud [79.39041453836793]
我々は、点雲をアンカーフリーで検出する新しい1段3次元検出器を開発した。
ボクセルをベースとしたスパース3D特徴量からスパース2D特徴量マップに変換することでこれを克服する。
検出信頼度スコアとバウンディングボックス回帰の精度との相関性を改善するために,IoUに基づく検出信頼度再校正手法を提案する。
論文 参考訳(メタデータ) (2021-08-08T13:42:13Z) - PC-DAN: Point Cloud based Deep Affinity Network for 3D Multi-Object
Tracking (Accepted as an extended abstract in JRDB-ACT Workshop at CVPR21) [68.12101204123422]
点雲は3次元座標における空間データの密集したコンパイルである。
我々は3次元多目的追跡(MOT)のためのPointNetベースのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-03T05:36:39Z) - RoIFusion: 3D Object Detection from LiDAR and Vision [7.878027048763662]
本稿では,3次元関心領域(RoI)の集合を点雲から対応する画像の2次元ロIに投影することで,新しい融合アルゴリズムを提案する。
提案手法は,KITTI 3Dオブジェクト検出課題ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2020-09-09T20:23:27Z) - Single-Shot 3D Detection of Vehicles from Monocular RGB Images via
Geometry Constrained Keypoints in Real-Time [6.82446891805815]
単眼RGB画像における車両検出のための新しい3次元単発物体検出法を提案する。
提案手法は,3次元空間への2次元検出を付加回帰および分類パラメータの予測により引き上げる。
KITTI 3D Object Detection と新しい nuScenes Object Detection ベンチマークを用いて,自律走行のための異なるデータセットに対するアプローチを検証し,その評価を行った。
論文 参考訳(メタデータ) (2020-06-23T15:10:19Z) - Stereo RGB and Deeper LIDAR Based Network for 3D Object Detection [40.34710686994996]
3Dオブジェクト検出は、自動運転のシナリオにおいて新たな課題となっている。
以前の作業では、プロジェクションベースまたはボクセルベースのモデルを使用して3Dポイントクラウドを処理していた。
本稿では,意味情報と空間情報の同時利用が可能なStereo RGBおよびDeeper LIDARフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-09T11:19:24Z) - DOPS: Learning to Detect 3D Objects and Predict their 3D Shapes [54.239416488865565]
LIDARデータに対する高速な1段3次元物体検出法を提案する。
我々の手法の中核となる新規性は高速かつシングルパスアーキテクチャであり、どちらも3次元の物体を検出し、それらの形状を推定する。
提案手法は,ScanNetシーンのオブジェクト検出で5%,オープンデータセットでは3.4%の精度で結果が得られた。
論文 参考訳(メタデータ) (2020-04-02T17:48:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。