論文の概要: Fine-Grained Pillar Feature Encoding Via Spatio-Temporal Virtual Grid
for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2403.06433v1
- Date: Mon, 11 Mar 2024 04:58:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 20:10:33.270442
- Title: Fine-Grained Pillar Feature Encoding Via Spatio-Temporal Virtual Grid
for 3D Object Detection
- Title(参考訳): 3次元物体検出のための時空間仮想グリッドを用いた細粒化ピラー特徴符号化
- Authors: Konyul Park, Yecheol Kim, Junho Koh, Byungwoo Park, Jun Won Choi
- Abstract要約: Fine-Grained Pillar Feature (FG-PFE)は、LiDARベースの3Dオブジェクト検出器のための新しい符号化アーキテクチャである。
FG-PFEはPointPillar、CenterPoint-Pillar、PillarNetといったベースラインモデルよりも大幅なパフォーマンス向上を実現している。
- 参考スコア(独自算出の注目度): 11.798670216671631
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing high-performance, real-time architectures for LiDAR-based 3D
object detectors is essential for the successful commercialization of
autonomous vehicles. Pillar-based methods stand out as a practical choice for
onboard deployment due to their computational efficiency. However, despite
their efficiency, these methods can sometimes underperform compared to
alternative point encoding techniques such as Voxel-encoding or PointNet++. We
argue that current pillar-based methods have not sufficiently captured the
fine-grained distributions of LiDAR points within each pillar structure.
Consequently, there exists considerable room for improvement in pillar feature
encoding. In this paper, we introduce a novel pillar encoding architecture
referred to as Fine-Grained Pillar Feature Encoding (FG-PFE). FG-PFE utilizes
Spatio-Temporal Virtual (STV) grids to capture the distribution of point clouds
within each pillar across vertical, temporal, and horizontal dimensions.
Through STV grids, points within each pillar are individually encoded using
Vertical PFE (V-PFE), Temporal PFE (T-PFE), and Horizontal PFE (H-PFE). These
encoded features are then aggregated through an Attentive Pillar Aggregation
method. Our experiments conducted on the nuScenes dataset demonstrate that
FG-PFE achieves significant performance improvements over baseline models such
as PointPillar, CenterPoint-Pillar, and PillarNet, with only a minor increase
in computational overhead.
- Abstract(参考訳): LiDARベースの3Dオブジェクト検出器のための高性能リアルタイムアーキテクチャの開発は、自動運転車の商業化の成功に不可欠である。
Pillarベースの手法は、その計算効率のため、オンボードデプロイメントの実践的な選択である。
しかし、その効率にもかかわらず、これらの手法はVoxel-encodingやPointNet++のような代替のポイントエンコーディング技術に比べて性能が劣ることがある。
現在の柱ベース手法では各柱構造内のライダー点の細粒度分布を十分に捉えていない。
したがって、柱の特徴エンコーディングを改善する余地は十分にある。
本稿では,ファイングラインドピラー特徴符号化(FG-PFE)と呼ばれる新しい柱符号化アーキテクチャを提案する。
FG-PFEは、垂直次元、時間次元、水平次元にまたがる各柱内の点雲の分布を捉えるために、時空間(STV)グリッドを使用する。
STVグリッドを通じて、各柱内の点を垂直PFE(V-PFE)、時間PFE(T-PFE)、水平PFE(H-PFE)を用いて個別に符号化する。
これらの符号化された機能は、Attentive Pillar Aggregationメソッドを通じて集約される。
nuScenesデータセットを用いて行った実験により、FG-PFEはPointPillar、CenterPoint-Pillar、PillarNetといったベースラインモデルよりも大幅に性能が向上し、計算オーバーヘッドはわずかに増加した。
関連論文リスト
- ParaPoint: Learning Global Free-Boundary Surface Parameterization of 3D Point Clouds [52.03819676074455]
ParaPointは、グローバルな自由境界面パラメータ化を実現するための教師なしのニューラルネットワークパイプラインである。
この研究は、グローバルマッピングと自由境界の両方を追求するニューラルポイントクラウドパラメータ化を調査する最初の試みである。
論文 参考訳(メタデータ) (2024-03-15T14:35:05Z) - PointOcc: Cylindrical Tri-Perspective View for Point-based 3D Semantic
Occupancy Prediction [72.75478398447396]
本稿では,点雲を効果的かつ包括的に表現する円筒型三重対視図を提案する。
また,LiDAR点雲の距離分布を考慮し,円筒座標系における三点ビューを構築した。
プロジェクション中に構造の詳細を維持するために空間群プーリングを使用し、各TPV平面を効率的に処理するために2次元バックボーンを採用する。
論文 参考訳(メタデータ) (2023-08-31T17:57:17Z) - Voxel or Pillar: Exploring Efficient Point Cloud Representation for 3D
Object Detection [49.324070632356296]
我々は3次元および2次元のスパース畳み込みにより点雲をボクセルと柱の特徴に符号化するスパース・ボクセル・ピラーエンコーダを開発した。
我々の効率的で完全なスパース法は、密度検出器とスパース検出器の両方にシームレスに統合できる。
論文 参考訳(メタデータ) (2023-04-06T05:00:58Z) - Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud
Analysis [66.49788145564004]
我々は、任意の幾何学と位相の不規則な3次元点雲を表現するために、Flattning-Netと呼ばれる教師なしのディープニューラルネットワークを提案する。
我々の手法は、現在の最先端の競合相手に対して好意的に機能する。
論文 参考訳(メタデータ) (2022-12-17T15:05:25Z) - Holistically-Attracted Wireframe Parsing: From Supervised to
Self-Supervised Learning [112.54086514317021]
本稿では,線分とジャンクションを用いた幾何解析のためのホロスティック適応型ワイヤフレーム解析法を提案する。
提案したHAWPは、エンド・ツー・フォームの4Dラベルによって強化された3つのコンポーネントで構成されている。
論文 参考訳(メタデータ) (2022-10-24T06:39:32Z) - Centralized Feature Pyramid for Object Detection [53.501796194901964]
視覚的特徴ピラミッドは、広範囲のアプリケーションにおいて、有効性と効率の両方において、その優位性を示している。
本稿では,オブジェクト検出のためのOLO特徴ピラミッドを提案する。
論文 参考訳(メタデータ) (2022-10-05T08:32:54Z) - PillarNet: Real-Time and High-Performance Pillar-based 3D Object
Detection [4.169126928311421]
リアルタイムかつ高性能な3Dオブジェクト検出は、自動運転にとって重要な課題である。
最近のトップパフォーマンスの3Dオブジェクト検出器は、主に点ベースまたは3Dボクセルベースの畳み込みに依存している。
我々はPillarNetと呼ばれるリアルタイムかつ高性能な柱型検出器を開発した。
論文 参考訳(メタデータ) (2022-05-16T00:14:50Z) - CVFNet: Real-time 3D Object Detection by Learning Cross View Features [11.402076835949824]
CVFNetと呼ばれるリアルタイムビューベースの1段3Dオブジェクト検出器を提案する。
本稿ではまず,複数の段階において,ポイント・アンド・レンジ・ビュー機能を深く統合した新しいポイント・ラウンジ機能融合モジュールを提案する。
次に, 得られた深度視点特徴を鳥の目視に変換する際に, 3次元形状を良好に維持する特別のスライスピラーを設計する。
論文 参考訳(メタデータ) (2022-03-13T06:23:18Z) - Improved Pillar with Fine-grained Feature for 3D Object Detection [23.348710029787068]
LiDAR点雲を用いた3次元物体検出は、自律走行知覚モジュールにおいて重要な役割を果たす。
既存の点ベースの手法は、生の点が多すぎるため、速度要件に到達するのが困難である。
PointPillarのような2Dグリッドベースの手法は、単純な2D畳み込みに基づいて、安定的で効率的な速度を容易に達成できる。
論文 参考訳(メタデータ) (2021-10-12T14:53:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。