論文の概要: Voxel or Pillar: Exploring Efficient Point Cloud Representation for 3D
Object Detection
- arxiv url: http://arxiv.org/abs/2304.02867v2
- Date: Sun, 3 Mar 2024 15:15:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 03:47:45.875256
- Title: Voxel or Pillar: Exploring Efficient Point Cloud Representation for 3D
Object Detection
- Title(参考訳): voxel または pillar: 3dオブジェクト検出のための効率的なポイントクラウド表現の探索
- Authors: Yuhao Huang, Sanping Zhou, Junjie Zhang, Jinpeng Dong, Nanning Zheng
- Abstract要約: 我々は3次元および2次元のスパース畳み込みにより点雲をボクセルと柱の特徴に符号化するスパース・ボクセル・ピラーエンコーダを開発した。
我々の効率的で完全なスパース法は、密度検出器とスパース検出器の両方にシームレスに統合できる。
- 参考スコア(独自算出の注目度): 49.324070632356296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient representation of point clouds is fundamental for LiDAR-based 3D
object detection. While recent grid-based detectors often encode point clouds
into either voxels or pillars, the distinctions between these approaches remain
underexplored. In this paper, we quantify the differences between the current
encoding paradigms and highlight the limited vertical learning within. To
tackle these limitations, we introduce a hybrid Voxel-Pillar Fusion network
(VPF), which synergistically combines the unique strengths of both voxels and
pillars. Specifically, we first develop a sparse voxel-pillar encoder that
encodes point clouds into voxel and pillar features through 3D and 2D sparse
convolutions respectively, and then introduce the Sparse Fusion Layer (SFL),
facilitating bidirectional interaction between sparse voxel and pillar
features. Our efficient, fully sparse method can be seamlessly integrated into
both dense and sparse detectors. Leveraging this powerful yet straightforward
framework, VPF delivers competitive performance, achieving real-time inference
speeds on the nuScenes and Waymo Open Dataset. The code will be available.
- Abstract(参考訳): 点雲の効率的な表現は、LiDARベースの3Dオブジェクト検出に基本となる。
最近のグリッドベースの検出器は、しばしば点雲をボクセルまたは柱にエンコードするが、これらのアプローチの区別は未解明のままである。
本稿では,現在の符号化パラダイムの違いを定量化し,内部で制限された垂直学習を強調する。
これらの制約に対処するために,voxel-pillar fusion network (vpf) というハイブリッドシステムを導入する。
具体的には、3dと2dのスパース畳み込みによって点雲をボクセルと柱にエンコードするスパースボクセル・ピラーエンコーダを開発し、スパース融合層(sfl)を導入し、スパースボクセルと柱の特徴の双方向相互作用を容易にする。
我々の効率的で完全なスパース法は、密度検出器とスパース検出器の両方にシームレスに統合できる。
この強力で簡単なフレームワークを活用して、VPFは、nuScenesとWaymo Open Dataset上でリアルタイムの推論速度を達成する、競争力のあるパフォーマンスを提供する。
コードは利用可能だ。
関連論文リスト
- PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - Point Cloud Compression with Implicit Neural Representations: A Unified Framework [54.119415852585306]
我々は幾何学と属性の両方を扱える先駆的なクラウド圧縮フレームワークを提案する。
本フレームワークでは,2つの座標ベースニューラルネットワークを用いて,voxelized point cloudを暗黙的に表現する。
本手法は,既存の学習手法と比較して,高い普遍性を示す。
論文 参考訳(メタデータ) (2024-05-19T09:19:40Z) - FFPA-Net: Efficient Feature Fusion with Projection Awareness for 3D
Object Detection [19.419030878019974]
構造化されていない3D点雲は2D平面に充填され、3D点雲はプロジェクション対応の畳み込み層を用いて高速に抽出される。
データ前処理において、異なるセンサ信号間の対応するインデックスを予め設定する。
2つの新しいプラグアンドプレイ融合モジュールLiCamFuseとBiLiCamFuseが提案されている。
論文 参考訳(メタデータ) (2022-09-15T16:13:19Z) - Voxel Set Transformer: A Set-to-Set Approach to 3D Object Detection from
Point Clouds [16.69887974230884]
Transformerは多くの2次元視覚タスクで有望なパフォーマンスを示した。
ポイントクラウドは長いシーケンスであり、3D空間に不均一に分散しているため、大規模なポイントクラウドデータの自己アテンションを計算するのは困難である。
既存の方法は、通常、ポイントを同じ大きさのクラスタにグループ化したり、離散化された表現に対して畳み込み的な自己アテンションを実行することによって、自己アテンションを局所的に計算する。
本稿では,Voxel Set Transformer (VoxSeT) と呼ばれる新しいボクセルベースアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-03-19T12:31:46Z) - Voxel Transformer for 3D Object Detection [133.34678177431914]
Voxel Transformer(ヴォクセルトランスフォーマー、VoTr)は、点雲から3Dオブジェクトを検出するための、新鮮で効果的なボクセルベースのトランスフォーマーバックボーンである。
提案するVoTrは、KITTIデータセットとOpenデータセットの計算効率を維持しながら、畳み込みベースラインよりも一貫した改善を示す。
論文 参考訳(メタデータ) (2021-09-06T14:10:22Z) - Volumetric Propagation Network: Stereo-LiDAR Fusion for Long-Range Depth
Estimation [81.08111209632501]
長距離深度推定のための幾何認識型ステレオLiDAR融合ネットワークを提案する。
ステレオ画像の対応を統一した3Dボリューム空間で導くためのキューとして、スパースで正確な点群を活用します。
我々のネットワークは,KITTIおよびVirtual-KITTIデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-03-24T03:24:46Z) - Multi Projection Fusion for Real-time Semantic Segmentation of 3D LiDAR
Point Clouds [2.924868086534434]
本稿では,ポイントクラウドの複数のプロジェクションを利用する3次元ポイントクラウドセマンティックセマンティックセマンティクスの新しいアプローチを提案する。
我々のMulti-Projection Fusionフレームワークは、2つの異なる高効率2次元完全畳み込みモデルを用いて球面および鳥眼の視射影を解析する。
論文 参考訳(メタデータ) (2020-11-03T19:40:43Z) - Reconfigurable Voxels: A New Representation for LiDAR-Based Point Clouds [76.52448276587707]
本稿では,3次元点群から表現を構成する新しい手法であるReconfigurable Voxelsを提案する。
具体的には,各地区を一定数のボクセルで適応的にカバーするランダムウォーク方式を考案する。
この手法は,特に疎水領域において,ボクセル特性の安定性を効果的に向上することがわかった。
論文 参考訳(メタデータ) (2020-04-06T15:07:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。