論文の概要: VPFusion: Towards Robust Vertical Representation Learning for 3D Object
Detection
- arxiv url: http://arxiv.org/abs/2304.02867v1
- Date: Thu, 6 Apr 2023 05:00:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-07 15:15:51.545576
- Title: VPFusion: Towards Robust Vertical Representation Learning for 3D Object
Detection
- Title(参考訳): VPFusion:3次元物体検出のためのロバストな垂直表現学習を目指して
- Authors: Yuhao Huang, Sanping Zhou, Junjie Zhang, Jinpeng Dong, Nanning Zheng
- Abstract要約: 本稿では,VoxelとPhilストリームの相補的な情報を組み合わせるために,明示的な垂直多スケール表現学習フレームワークVPFusionを提案する。
VPFusionは単一ストリームのベースラインを大きなマージンで越え、リアルタイムの推論速度で最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 58.03545500837037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient point cloud representation is a fundamental element of Lidar-based
3D object detection. Recent grid-based detectors usually divide point clouds
into voxels or pillars and construct single-stream networks in Bird's Eye View.
However, these point cloud encoding paradigms underestimate the point
representation in the vertical direction, which cause the loss of semantic or
fine-grained information, especially for vertical sensitive objects like
pedestrian and cyclists. In this paper, we propose an explicit vertical
multi-scale representation learning framework, VPFusion, to combine the
complementary information from both voxel and pillar streams. Specifically,
VPFusion first builds upon a sparse voxel-pillar-based backbone. The backbone
divides point clouds into voxels and pillars, then encodes features with 3D and
2D sparse convolution simultaneously. Next, we introduce the Sparse Fusion
Layer (SFL), which establishes a bidirectional pathway for sparse voxel and
pillar features to enable the interaction between them. Additionally, we
present the Dense Fusion Neck (DFN) to effectively combine the dense feature
maps from voxel and pillar branches with multi-scale. Extensive experiments on
the large-scale Waymo Open Dataset and nuScenes Dataset demonstrate that
VPFusion surpasses the single-stream baselines by a large margin and achieves
state-of-the-art performance with real-time inference speed.
- Abstract(参考訳): 効率的な点雲表現は、Lidarベースの3Dオブジェクト検出の基本的な要素である。
最近のグリッドベースの検出器は通常、点雲をボクセルまたは柱に分割し、バードアイビューで単一ストリームネットワークを構築する。
しかし、これらの点雲符号化パラダイムは垂直方向の点表現を過小評価しており、特に歩行者やサイクリストのような垂直に敏感な物体に対して意味や細かい情報を失う。
本稿では,voxelストリームとピラーストリームの両方からの補完情報を組み合わせるための,明示的な縦型多スケール表現学習フレームワークvpfusionを提案する。
特に、vpfusionはまずスパースなvoxel-pillarベースのバックボーン上に構築されている。
バックボーンは点雲をボクセルと柱に分割し、3Dと2Dのスパース畳み込みを同時に符号化する。
次に,sparse fusion layer (sfl) を導入する。sparse voxel と pillar features の双方向経路を確立し,それらの相互作用を可能にする。
さらにDense Fusion Neck (DFN) を, ボクセルおよび柱枝からの高密度特徴写像とマルチスケールを効果的に組み合わせるために提案する。
大規模なWaymo Open DatasetとnuScenes Datasetに関する大規模な実験は、VPFusionがシングルストリームベースラインを大きなマージンで越え、リアルタイムの推論速度で最先端のパフォーマンスを達成することを示した。
関連論文リスト
- PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - Point Cloud Compression with Implicit Neural Representations: A Unified Framework [54.119415852585306]
我々は幾何学と属性の両方を扱える先駆的なクラウド圧縮フレームワークを提案する。
本フレームワークでは,2つの座標ベースニューラルネットワークを用いて,voxelized point cloudを暗黙的に表現する。
本手法は,既存の学習手法と比較して,高い普遍性を示す。
論文 参考訳(メタデータ) (2024-05-19T09:19:40Z) - FFPA-Net: Efficient Feature Fusion with Projection Awareness for 3D
Object Detection [19.419030878019974]
構造化されていない3D点雲は2D平面に充填され、3D点雲はプロジェクション対応の畳み込み層を用いて高速に抽出される。
データ前処理において、異なるセンサ信号間の対応するインデックスを予め設定する。
2つの新しいプラグアンドプレイ融合モジュールLiCamFuseとBiLiCamFuseが提案されている。
論文 参考訳(メタデータ) (2022-09-15T16:13:19Z) - Voxel Set Transformer: A Set-to-Set Approach to 3D Object Detection from
Point Clouds [16.69887974230884]
Transformerは多くの2次元視覚タスクで有望なパフォーマンスを示した。
ポイントクラウドは長いシーケンスであり、3D空間に不均一に分散しているため、大規模なポイントクラウドデータの自己アテンションを計算するのは困難である。
既存の方法は、通常、ポイントを同じ大きさのクラスタにグループ化したり、離散化された表現に対して畳み込み的な自己アテンションを実行することによって、自己アテンションを局所的に計算する。
本稿では,Voxel Set Transformer (VoxSeT) と呼ばれる新しいボクセルベースアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-03-19T12:31:46Z) - Voxel Transformer for 3D Object Detection [133.34678177431914]
Voxel Transformer(ヴォクセルトランスフォーマー、VoTr)は、点雲から3Dオブジェクトを検出するための、新鮮で効果的なボクセルベースのトランスフォーマーバックボーンである。
提案するVoTrは、KITTIデータセットとOpenデータセットの計算効率を維持しながら、畳み込みベースラインよりも一貫した改善を示す。
論文 参考訳(メタデータ) (2021-09-06T14:10:22Z) - Volumetric Propagation Network: Stereo-LiDAR Fusion for Long-Range Depth
Estimation [81.08111209632501]
長距離深度推定のための幾何認識型ステレオLiDAR融合ネットワークを提案する。
ステレオ画像の対応を統一した3Dボリューム空間で導くためのキューとして、スパースで正確な点群を活用します。
我々のネットワークは,KITTIおよびVirtual-KITTIデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-03-24T03:24:46Z) - Multi Projection Fusion for Real-time Semantic Segmentation of 3D LiDAR
Point Clouds [2.924868086534434]
本稿では,ポイントクラウドの複数のプロジェクションを利用する3次元ポイントクラウドセマンティックセマンティックセマンティクスの新しいアプローチを提案する。
我々のMulti-Projection Fusionフレームワークは、2つの異なる高効率2次元完全畳み込みモデルを用いて球面および鳥眼の視射影を解析する。
論文 参考訳(メタデータ) (2020-11-03T19:40:43Z) - Reconfigurable Voxels: A New Representation for LiDAR-Based Point Clouds [76.52448276587707]
本稿では,3次元点群から表現を構成する新しい手法であるReconfigurable Voxelsを提案する。
具体的には,各地区を一定数のボクセルで適応的にカバーするランダムウォーク方式を考案する。
この手法は,特に疎水領域において,ボクセル特性の安定性を効果的に向上することがわかった。
論文 参考訳(メタデータ) (2020-04-06T15:07:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。