論文の概要: Voxel or Pillar: Exploring Efficient Point Cloud Representation for 3D
Object Detection
- arxiv url: http://arxiv.org/abs/2304.02867v2
- Date: Sun, 3 Mar 2024 15:15:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 03:47:45.875256
- Title: Voxel or Pillar: Exploring Efficient Point Cloud Representation for 3D
Object Detection
- Title(参考訳): voxel または pillar: 3dオブジェクト検出のための効率的なポイントクラウド表現の探索
- Authors: Yuhao Huang, Sanping Zhou, Junjie Zhang, Jinpeng Dong, Nanning Zheng
- Abstract要約: 我々は3次元および2次元のスパース畳み込みにより点雲をボクセルと柱の特徴に符号化するスパース・ボクセル・ピラーエンコーダを開発した。
我々の効率的で完全なスパース法は、密度検出器とスパース検出器の両方にシームレスに統合できる。
- 参考スコア(独自算出の注目度): 49.324070632356296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient representation of point clouds is fundamental for LiDAR-based 3D
object detection. While recent grid-based detectors often encode point clouds
into either voxels or pillars, the distinctions between these approaches remain
underexplored. In this paper, we quantify the differences between the current
encoding paradigms and highlight the limited vertical learning within. To
tackle these limitations, we introduce a hybrid Voxel-Pillar Fusion network
(VPF), which synergistically combines the unique strengths of both voxels and
pillars. Specifically, we first develop a sparse voxel-pillar encoder that
encodes point clouds into voxel and pillar features through 3D and 2D sparse
convolutions respectively, and then introduce the Sparse Fusion Layer (SFL),
facilitating bidirectional interaction between sparse voxel and pillar
features. Our efficient, fully sparse method can be seamlessly integrated into
both dense and sparse detectors. Leveraging this powerful yet straightforward
framework, VPF delivers competitive performance, achieving real-time inference
speeds on the nuScenes and Waymo Open Dataset. The code will be available.
- Abstract(参考訳): 点雲の効率的な表現は、LiDARベースの3Dオブジェクト検出に基本となる。
最近のグリッドベースの検出器は、しばしば点雲をボクセルまたは柱にエンコードするが、これらのアプローチの区別は未解明のままである。
本稿では,現在の符号化パラダイムの違いを定量化し,内部で制限された垂直学習を強調する。
これらの制約に対処するために,voxel-pillar fusion network (vpf) というハイブリッドシステムを導入する。
具体的には、3dと2dのスパース畳み込みによって点雲をボクセルと柱にエンコードするスパースボクセル・ピラーエンコーダを開発し、スパース融合層(sfl)を導入し、スパースボクセルと柱の特徴の双方向相互作用を容易にする。
我々の効率的で完全なスパース法は、密度検出器とスパース検出器の両方にシームレスに統合できる。
この強力で簡単なフレームワークを活用して、VPFは、nuScenesとWaymo Open Dataset上でリアルタイムの推論速度を達成する、競争力のあるパフォーマンスを提供する。
コードは利用可能だ。
関連論文リスト
- FFPA-Net: Efficient Feature Fusion with Projection Awareness for 3D
Object Detection [19.419030878019974]
構造化されていない3D点雲は2D平面に充填され、3D点雲はプロジェクション対応の畳み込み層を用いて高速に抽出される。
データ前処理において、異なるセンサ信号間の対応するインデックスを予め設定する。
2つの新しいプラグアンドプレイ融合モジュールLiCamFuseとBiLiCamFuseが提案されている。
論文 参考訳(メタデータ) (2022-09-15T16:13:19Z) - Focal Sparse Convolutional Networks for 3D Object Detection [121.45950754511021]
我々はスパースCNNの能力を高めるために2つの新しいモジュールを導入する。
焦点スパース・コンボリューション(Focals Conv)であり、焦点スパース・コンボリューションの多様変種である。
スパース・コンボリューションにおける空間的に学習可能な空間空間性は,高度な3次元物体検出に不可欠であることを示す。
論文 参考訳(メタデータ) (2022-04-26T17:34:10Z) - Voxel Set Transformer: A Set-to-Set Approach to 3D Object Detection from
Point Clouds [16.69887974230884]
Transformerは多くの2次元視覚タスクで有望なパフォーマンスを示した。
ポイントクラウドは長いシーケンスであり、3D空間に不均一に分散しているため、大規模なポイントクラウドデータの自己アテンションを計算するのは困難である。
既存の方法は、通常、ポイントを同じ大きさのクラスタにグループ化したり、離散化された表現に対して畳み込み的な自己アテンションを実行することによって、自己アテンションを局所的に計算する。
本稿では,Voxel Set Transformer (VoxSeT) と呼ばれる新しいボクセルベースアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-03-19T12:31:46Z) - Voxel Transformer for 3D Object Detection [133.34678177431914]
Voxel Transformer(ヴォクセルトランスフォーマー、VoTr)は、点雲から3Dオブジェクトを検出するための、新鮮で効果的なボクセルベースのトランスフォーマーバックボーンである。
提案するVoTrは、KITTIデータセットとOpenデータセットの計算効率を維持しながら、畳み込みベースラインよりも一貫した改善を示す。
論文 参考訳(メタデータ) (2021-09-06T14:10:22Z) - Volumetric Propagation Network: Stereo-LiDAR Fusion for Long-Range Depth
Estimation [81.08111209632501]
長距離深度推定のための幾何認識型ステレオLiDAR融合ネットワークを提案する。
ステレオ画像の対応を統一した3Dボリューム空間で導くためのキューとして、スパースで正確な点群を活用します。
我々のネットワークは,KITTIおよびVirtual-KITTIデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-03-24T03:24:46Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR
Segmentation [81.02742110604161]
大規模運転シーンのLiDARセグメンテーションのための最先端の手法は、しばしば点雲を2次元空間に投影し、2D畳み込みによって処理する。
そこで我々は,3次元幾何学的パタンを探索するために,円筒分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
提案手法はセマンティックKITTIのリーダーボードにおいて第1位を獲得し,既存のnuScenesの手法を約4%のマージンで上回っている。
論文 参考訳(メタデータ) (2020-11-19T18:53:11Z) - Multi Projection Fusion for Real-time Semantic Segmentation of 3D LiDAR
Point Clouds [2.924868086534434]
本稿では,ポイントクラウドの複数のプロジェクションを利用する3次元ポイントクラウドセマンティックセマンティックセマンティクスの新しいアプローチを提案する。
我々のMulti-Projection Fusionフレームワークは、2つの異なる高効率2次元完全畳み込みモデルを用いて球面および鳥眼の視射影を解析する。
論文 参考訳(メタデータ) (2020-11-03T19:40:43Z) - DV-ConvNet: Fully Convolutional Deep Learning on Point Clouds with
Dynamic Voxelization and 3D Group Convolution [0.7340017786387767]
3次元点雲の解釈は、成分点のランダム性と空間性のために難しい課題である。
本研究では,効率的な3Dポイントクラウド解釈に向けて,標準的な3Dコンボリューションに注意を向ける。
我々のネットワークは、非常に高速に動作し、収束することができるが、いくつかのベンチマークデータセットの最先端の手法と比較して、オンパーまたはさらにパフォーマンスが向上する。
論文 参考訳(メタデータ) (2020-09-07T07:45:05Z) - Reconfigurable Voxels: A New Representation for LiDAR-Based Point Clouds [76.52448276587707]
本稿では,3次元点群から表現を構成する新しい手法であるReconfigurable Voxelsを提案する。
具体的には,各地区を一定数のボクセルで適応的にカバーするランダムウォーク方式を考案する。
この手法は,特に疎水領域において,ボクセル特性の安定性を効果的に向上することがわかった。
論文 参考訳(メタデータ) (2020-04-06T15:07:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。