論文の概要: PVTransformer: Point-to-Voxel Transformer for Scalable 3D Object Detection
- arxiv url: http://arxiv.org/abs/2405.02811v1
- Date: Sun, 5 May 2024 04:44:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 18:10:30.106783
- Title: PVTransformer: Point-to-Voxel Transformer for Scalable 3D Object Detection
- Title(参考訳): PV変換器:スケーラブルな3次元物体検出のためのポイント・ツー・ボクセル変換器
- Authors: Zhaoqi Leng, Pei Sun, Tong He, Dragomir Anguelov, Mingxing Tan,
- Abstract要約: 点雲のための3Dオブジェクト検出器は、しばしば、スパースポイントをグリッドのようなボクセルや柱にエンコードするために、プールベースのPointNetに依存する。
本稿では,3次元検出のための変圧器を用いたポイント・ツー・ボクセルアーキテクチャであるPVTransformerを提案する。
- 参考スコア(独自算出の注目度): 36.04323550267339
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: 3D object detectors for point clouds often rely on a pooling-based PointNet to encode sparse points into grid-like voxels or pillars. In this paper, we identify that the common PointNet design introduces an information bottleneck that limits 3D object detection accuracy and scalability. To address this limitation, we propose PVTransformer: a transformer-based point-to-voxel architecture for 3D detection. Our key idea is to replace the PointNet pooling operation with an attention module, leading to a better point-to-voxel aggregation function. Our design respects the permutation invariance of sparse 3D points while being more expressive than the pooling-based PointNet. Experimental results show our PVTransformer achieves much better performance compared to the latest 3D object detectors. On the widely used Waymo Open Dataset, our PVTransformer achieves state-of-the-art 76.5 mAPH L2, outperforming the prior art of SWFormer by +1.7 mAPH L2.
- Abstract(参考訳): 点雲のための3Dオブジェクト検出器は、しばしば、スパースポイントをグリッドのようなボクセルや柱にエンコードするために、プールベースのPointNetに依存する。
本稿では,一般的なPointNet設計が3次元物体検出精度とスケーラビリティを制限した情報ボトルネックを導入することを確認した。
この制限に対処するため,変圧器を用いた3次元検出のためのポイント・ツー・ボクセルアーキテクチャであるPVTransformerを提案する。
私たちのキーとなるアイデアは、PointNetプーリング操作をアテンションモジュールに置き換えることです。
我々の設計では、スパース3D点の置換不変性を尊重し、プールベースのPointNetよりも表現力が高い。
実験の結果, PVTransformerは最新の3Dオブジェクト検出器と比較して, はるかに優れた性能を示した。
広く使われているWaymo Open Datasetでは、当社のPVTransformerが最先端の76.5 mAPH L2を達成し、SWFormerの先行技術である+1.7 mAPH L2を上回っている。
関連論文リスト
- V-DETR: DETR with Vertex Relative Position Encoding for 3D Object
Detection [73.37781484123536]
DETRフレームワークを用いた点雲のための高性能な3次元物体検出器を提案する。
限界に対処するため,新しい3次元相対位置(3DV-RPE)法を提案する。
挑戦的なScanNetV2ベンチマークで例外的な結果を示す。
論文 参考訳(メタデータ) (2023-08-08T17:14:14Z) - PVT-SSD: Single-Stage 3D Object Detector with Point-Voxel Transformer [75.2251801053839]
単段3次元検出用ポイント・ボクセル変換器(PVT-SSD)を提案する。
本稿では,voxel から長時間のコンテキストを安価に取得できる Point-Voxel Transformer (PVT) モジュールを提案する。
いくつかの自律走行ベンチマーク実験は,提案手法の有効性と有効性を検証する。
論文 参考訳(メタデータ) (2023-05-11T07:37:15Z) - OA-BEV: Bringing Object Awareness to Bird's-Eye-View Representation for
Multi-Camera 3D Object Detection [78.38062015443195]
OA-BEVは、BEVベースの3Dオブジェクト検出フレームワークにプラグインできるネットワークである。
提案手法は,BEV ベースラインに対する平均精度と nuScenes 検出スコアの両面で一貫した改善を実現する。
論文 参考訳(メタデータ) (2023-01-13T06:02:31Z) - Hierarchical Point Attention for Indoor 3D Object Detection [111.04397308495618]
本研究は、点ベース変圧器検出器の汎用階層設計として、2つの新しい注意操作を提案する。
まず、よりきめ細かい特徴学習を可能にするために、シングルスケールの入力機能からマルチスケールトークンを構築するマルチスケール注意(MS-A)を提案する。
第2に,適応型アテンション領域を持つサイズ適応型ローカルアテンション(Local-A)を提案する。
論文 参考訳(メタデータ) (2023-01-06T18:52:12Z) - PV-RCNN++: Semantical Point-Voxel Feature Interaction for 3D Object
Detection [22.6659359032306]
本稿では,PV-RCNN++と呼ばれる意味的特徴相互作用を用いた新しいオブジェクト検出ネットワークを提案する。
KITTIデータセットの実験によると、PV-RCNN++は81.60$%$, 40.18$%$, 68.21$%$ 3D mAP on Car, Pedestrian, Cyclistで達成され、最先端技術と同等またはそれ以上のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2022-08-29T08:14:00Z) - RBGNet: Ray-based Grouping for 3D Object Detection [104.98776095895641]
本稿では,点雲からの正確な3次元物体検出のための投票型3次元検出器RBGNetフレームワークを提案する。
決定された光線群を用いて物体表面上の点方向の特徴を集約する。
ScanNet V2 と SUN RGB-D による最先端の3D 検出性能を実現する。
論文 参考訳(メタデータ) (2022-04-05T14:42:57Z) - PV-RCNN++: Point-Voxel Feature Set Abstraction With Local Vector
Representation for 3D Object Detection [100.60209139039472]
点雲からの正確な3次元検出を行うために,PointVoxel Region based Convolution Neural Networks (PVRCNNs)を提案する。
提案するPV-RCNNは,Openデータセットと高競争性KITTIベンチマークの両方において,従来の最先端3D検出方法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-01-31T14:51:49Z) - 3D Object Detection with Pointformer [29.935891419574602]
本稿では,3dポイントクラウドのためのトランスフォーマーバックボーンであるpointformerを提案する。
ローカルトランスフォーマーモジュールは、オブジェクトレベルでコンテキスト依存の領域特徴を学習するローカル領域のポイント間の相互作用をモデル化するために使用される。
Global Transformerは、シーンレベルでコンテキスト対応の表現を学ぶように設計されている。
論文 参考訳(メタデータ) (2020-12-21T15:12:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。