論文の概要: Spherical Transformer for LiDAR-based 3D Recognition
- arxiv url: http://arxiv.org/abs/2303.12766v1
- Date: Wed, 22 Mar 2023 17:30:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-23 13:19:31.154532
- Title: Spherical Transformer for LiDAR-based 3D Recognition
- Title(参考訳): LiDARを用いた3次元認識のための球変換器
- Authors: Xin Lai, Yukang Chen, Fanbin Lu, Jianhui Liu, Jiaya Jia
- Abstract要約: 本研究では, 密閉点から疎遠点への情報を直接集約するLiDAR点とSphereFormerについて検討した。
我々は、空間を複数の非重なりの狭い窓と長い窓に分割するラジアルウィンドウ自己アテンションを設計する。
狭い窓と長い窓に合わせるために,細粒度位置符号化と動的特徴選択を行う指数分割を提案する。
- 参考スコア(独自算出の注目度): 48.44153945515335
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: LiDAR-based 3D point cloud recognition has benefited various applications.
Without specially considering the LiDAR point distribution, most current
methods suffer from information disconnection and limited receptive field,
especially for the sparse distant points. In this work, we study the
varying-sparsity distribution of LiDAR points and present SphereFormer to
directly aggregate information from dense close points to the sparse distant
ones. We design radial window self-attention that partitions the space into
multiple non-overlapping narrow and long windows. It overcomes the
disconnection issue and enlarges the receptive field smoothly and dramatically,
which significantly boosts the performance of sparse distant points. Moreover,
to fit the narrow and long windows, we propose exponential splitting to yield
fine-grained position encoding and dynamic feature selection to increase model
representation ability. Notably, our method ranks 1st on both nuScenes and
SemanticKITTI semantic segmentation benchmarks with 81.9% and 74.8% mIoU,
respectively. Also, we achieve the 3rd place on nuScenes object detection
benchmark with 72.8% NDS and 68.5% mAP. Code is available at
https://github.com/dvlab-research/SphereFormer.git.
- Abstract(参考訳): LiDARベースの3Dポイントクラウド認識は、様々なアプリケーションに恩恵をもたらした。
LiDARの点分布を特に考慮しない限り、現在のほとんどの手法は情報切断と限られた受容場、特に疎遠な点に悩まされている。
本研究では,lidar点の変動スパーシティ分布を調べ,密接点から疎遠点への情報を直接集約するsphereformerを提案する。
我々は、空間を複数の非重なりの狭い窓と長い窓に分割するラジアルウィンドウ自己アテンションを設計する。
断線問題を克服し、受容野をスムーズかつ劇的に拡大し、疎遠点の性能を大幅に向上させる。
さらに, 狭長の窓に適合するために, 細粒度位置符号化と動的特徴選択を実現する指数的分割を提案し, モデル表現能力を向上させる。
特に、この手法は、それぞれ81.9%と74.8%のmIoUで、nuScenesとSemanticKITTIセマンティックセマンティックセマンティックセマンティクスのベンチマークで第1位である。
また、72.8%のNDSと68.5%のmAPでnuScenesオブジェクト検出ベンチマークで3位となった。
コードはhttps://github.com/dvlab-research/SphereFormer.gitで入手できる。
関連論文リスト
- HEDNet: A Hierarchical Encoder-Decoder Network for 3D Object Detection
in Point Clouds [19.1921315424192]
ポイントクラウドにおける3Dオブジェクト検出は、自律運転システムにとって重要である。
3Dオブジェクト検出における主な課題は、3Dシーン内の点のスパース分布に起因する。
本稿では3次元オブジェクト検出のための階層型エンコーダデコーダネットワークであるHEDNetを提案する。
論文 参考訳(メタデータ) (2023-10-31T07:32:08Z) - CrossLoc3D: Aerial-Ground Cross-Source 3D Place Recognition [45.16530801796705]
CrossLoc3Dは、クロスソース環境での大規模点マッチング問題を解決する新しい3D位置認識手法である。
CS-Campus3Dは,空中および地上の両方のLiDARスキャンから得られる点雲データからなる,最初の3次元地上クロスソースデータセットである。
論文 参考訳(メタデータ) (2023-03-31T02:50:52Z) - Super Sparse 3D Object Detection [48.684300007948906]
LiDARベースの3Dオブジェクト検出は、自動運転における長距離認識にますます貢献する。
高速な長距離検出を実現するため,まずフルスパース物体検出器FSDを提案する。
FSD++は、連続するフレーム間の点変化を示す残差点を生成する。
論文 参考訳(メタデータ) (2023-01-05T17:03:56Z) - Stratified Transformer for 3D Point Cloud Segmentation [89.9698499437732]
Stratified Transformerは、長距離コンテキストをキャプチャし、強力な一般化能力と高性能を示す。
不規則な点配置によって引き起こされる課題に対処するために,局所情報を集約する第1層点埋め込みを提案する。
S3DIS, ScanNetv2およびShapeNetPartデータセットにおける本手法の有効性と優位性を示す実験を行った。
論文 参考訳(メタデータ) (2022-03-28T05:35:16Z) - POCO: Point Convolution for Surface Reconstruction [92.22371813519003]
入射ニューラルネットワークは点雲からの表面再構成に成功している。
それらの多くは、オブジェクトやシーン全体を1つの潜伏ベクトルにエンコードするときにスケーラビリティの問題に直面します。
本稿では,各入力点における点雲畳み込みと潜在ベクトルの計算を提案する。
論文 参考訳(メタデータ) (2022-01-05T21:26:18Z) - VPFNet: Improving 3D Object Detection with Virtual Point based LiDAR and
Stereo Data Fusion [62.24001258298076]
VPFNetは、ポイントクラウドとイメージデータを仮想のポイントで巧みに調整し集約する新しいアーキテクチャである。
当社のVPFNetは,KITTIテストセットで83.21%の中等度3D AP,91.86%中等度BEV APを達成し,2021年5月21日以来の1位となった。
論文 参考訳(メタデータ) (2021-11-29T08:51:20Z) - TransLoc3D : Point Cloud based Large-scale Place Recognition using
Adaptive Receptive Fields [40.55971834919629]
固定受容場は位置認識には適していないと我々は主張する。
本稿では,入力点クラウドに基づいて受容場のサイズを適応的に調整できる新しい適応受容場モジュール(ARFM)を提案する。
また,新たなネットワークアーキテクチャであるTransLoc3Dを提案する。
論文 参考訳(メタデータ) (2021-05-25T01:54:31Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR
Segmentation [81.02742110604161]
大規模運転シーンのLiDARセグメンテーションのための最先端の手法は、しばしば点雲を2次元空間に投影し、2D畳み込みによって処理する。
そこで我々は,3次元幾何学的パタンを探索するために,円筒分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
提案手法はセマンティックKITTIのリーダーボードにおいて第1位を獲得し,既存のnuScenesの手法を約4%のマージンで上回っている。
論文 参考訳(メタデータ) (2020-11-19T18:53:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。