論文の概要: PVT-SSD: Single-Stage 3D Object Detector with Point-Voxel Transformer
- arxiv url: http://arxiv.org/abs/2305.06621v1
- Date: Thu, 11 May 2023 07:37:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-12 15:38:33.671807
- Title: PVT-SSD: Single-Stage 3D Object Detector with Point-Voxel Transformer
- Title(参考訳): PVT-SSD:ポイントボクセル変換器付き単段3Dオブジェクト検出器
- Authors: Honghui Yang and Wenxiao Wang and Minghao Chen and Binbin Lin and Tong
He and Hua Chen and Xiaofei He and Wanli Ouyang
- Abstract要約: 単段3次元検出用ポイント・ボクセル変換器(PVT-SSD)を提案する。
本稿では,voxel から長時間のコンテキストを安価に取得できる Point-Voxel Transformer (PVT) モジュールを提案する。
いくつかの自律走行ベンチマーク実験は,提案手法の有効性と有効性を検証する。
- 参考スコア(独自算出の注目度): 75.2251801053839
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent Transformer-based 3D object detectors learn point cloud features
either from point- or voxel-based representations. However, the former requires
time-consuming sampling while the latter introduces quantization errors. In
this paper, we present a novel Point-Voxel Transformer for single-stage 3D
detection (PVT-SSD) that takes advantage of these two representations.
Specifically, we first use voxel-based sparse convolutions for efficient
feature encoding. Then, we propose a Point-Voxel Transformer (PVT) module that
obtains long-range contexts in a cheap manner from voxels while attaining
accurate positions from points. The key to associating the two different
representations is our introduced input-dependent Query Initialization module,
which could efficiently generate reference points and content queries. Then,
PVT adaptively fuses long-range contextual and local geometric information
around reference points into content queries. Further, to quickly find the
neighboring points of reference points, we design the Virtual Range Image
module, which generalizes the native range image to multi-sensor and
multi-frame. The experiments on several autonomous driving benchmarks verify
the effectiveness and efficiency of the proposed method. Code will be available
at https://github.com/Nightmare-n/PVT-SSD.
- Abstract(参考訳): 最近のトランスフォーマーベースの3dオブジェクト検出器は、ポイントまたはボクセルに基づく表現からポイントクラウドの特徴を学ぶ。
しかし、前者はサンプリングに時間を要するが、後者は量子化エラーを導入する。
本稿では,これら2つの表現を利用する単段3d検出用点ボクセルトランス(pvt-ssd)を提案する。
具体的には、最初にvoxelベースのスパース畳み込みを効率的な特徴エンコーディングに使用しました。
そこで本稿では,voxel から長時間のコンテキストを安価に取得し,正確な位置を得ることのできる Point-Voxel Transformer (PVT) モジュールを提案する。
2つの異なる表現を関連付ける鍵は、私たちが導入した入力依存クエリ初期化モジュールで、参照ポイントとコンテンツクエリを効率的に生成できる。
そしてPVTは、参照ポイントに関する長距離コンテキストおよび局所幾何学情報をコンテンツクエリに適応的に融合する。
さらに,近接する参照点の点を迅速に見つけるために,ネイティブレンジイメージをマルチセンサおよびマルチフレームに一般化する仮想レンジイメージモジュールを設計する。
いくつかの自律走行ベンチマーク実験は,提案手法の有効性と有効性を検証する。
コードはhttps://github.com/Nightmare-n/PVT-SSDで入手できる。
関連論文リスト
- PVTransformer: Point-to-Voxel Transformer for Scalable 3D Object Detection [36.04323550267339]
点雲のための3Dオブジェクト検出器は、しばしば、スパースポイントをグリッドのようなボクセルや柱にエンコードするために、プールベースのPointNetに依存する。
本稿では,3次元検出のための変圧器を用いたポイント・ツー・ボクセルアーキテクチャであるPVTransformerを提案する。
論文 参考訳(メタデータ) (2024-05-05T04:44:41Z) - V-DETR: DETR with Vertex Relative Position Encoding for 3D Object
Detection [73.37781484123536]
DETRフレームワークを用いた点雲のための高性能な3次元物体検出器を提案する。
限界に対処するため,新しい3次元相対位置(3DV-RPE)法を提案する。
挑戦的なScanNetV2ベンチマークで例外的な結果を示す。
論文 参考訳(メタデータ) (2023-08-08T17:14:14Z) - PV-RCNN++: Semantical Point-Voxel Feature Interaction for 3D Object
Detection [22.6659359032306]
本稿では,PV-RCNN++と呼ばれる意味的特徴相互作用を用いた新しいオブジェクト検出ネットワークを提案する。
KITTIデータセットの実験によると、PV-RCNN++は81.60$%$, 40.18$%$, 68.21$%$ 3D mAP on Car, Pedestrian, Cyclistで達成され、最先端技術と同等またはそれ以上のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2022-08-29T08:14:00Z) - VPIT: Real-time Embedded Single Object 3D Tracking Using Voxel Pseudo Images [90.60881721134656]
本稿では,Voxel Pseudo Image Tracking (VPIT) という,Voxel-based 3D Single Object Tracking (3D SOT) 手法を提案する。
KITTI追跡データセットの実験は、VPITが最速の3D SOT法であり、競合的な成功と精度の値を維持することを示している。
論文 参考訳(メタデータ) (2022-06-06T14:02:06Z) - Stratified Transformer for 3D Point Cloud Segmentation [89.9698499437732]
Stratified Transformerは、長距離コンテキストをキャプチャし、強力な一般化能力と高性能を示す。
不規則な点配置によって引き起こされる課題に対処するために,局所情報を集約する第1層点埋め込みを提案する。
S3DIS, ScanNetv2およびShapeNetPartデータセットにおける本手法の有効性と優位性を示す実験を行った。
論文 参考訳(メタデータ) (2022-03-28T05:35:16Z) - Voxel Set Transformer: A Set-to-Set Approach to 3D Object Detection from
Point Clouds [16.69887974230884]
Transformerは多くの2次元視覚タスクで有望なパフォーマンスを示した。
ポイントクラウドは長いシーケンスであり、3D空間に不均一に分散しているため、大規模なポイントクラウドデータの自己アテンションを計算するのは困難である。
既存の方法は、通常、ポイントを同じ大きさのクラスタにグループ化したり、離散化された表現に対して畳み込み的な自己アテンションを実行することによって、自己アテンションを局所的に計算する。
本稿では,Voxel Set Transformer (VoxSeT) と呼ばれる新しいボクセルベースアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-03-19T12:31:46Z) - SASA: Semantics-Augmented Set Abstraction for Point-based 3D Object
Detection [78.90102636266276]
SASA(Semantics-Augmented Set Abstraction)と呼ばれる新しい集合抽象化手法を提案する。
そこで本研究では, 推定点前景スコアに基づいて, より重要な前景点の維持を支援するセマンティックス誘導点サンプリングアルゴリズムを提案する。
実際には、SASAは、前景オブジェクトに関連する貴重な点を識別し、ポイントベースの3D検出のための特徴学習を改善するのに有効である。
論文 参考訳(メタデータ) (2022-01-06T08:54:47Z) - Voxel Transformer for 3D Object Detection [133.34678177431914]
Voxel Transformer(ヴォクセルトランスフォーマー、VoTr)は、点雲から3Dオブジェクトを検出するための、新鮮で効果的なボクセルベースのトランスフォーマーバックボーンである。
提案するVoTrは、KITTIデータセットとOpenデータセットの計算効率を維持しながら、畳み込みベースラインよりも一貫した改善を示す。
論文 参考訳(メタデータ) (2021-09-06T14:10:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。