論文の概要: Fine-Grained Pillar Feature Encoding Via Spatio-Temporal Virtual Grid
for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2403.06433v1
- Date: Mon, 11 Mar 2024 04:58:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 20:10:33.270442
- Title: Fine-Grained Pillar Feature Encoding Via Spatio-Temporal Virtual Grid
for 3D Object Detection
- Title(参考訳): 3次元物体検出のための時空間仮想グリッドを用いた細粒化ピラー特徴符号化
- Authors: Konyul Park, Yecheol Kim, Junho Koh, Byungwoo Park, Jun Won Choi
- Abstract要約: Fine-Grained Pillar Feature (FG-PFE)は、LiDARベースの3Dオブジェクト検出器のための新しい符号化アーキテクチャである。
FG-PFEはPointPillar、CenterPoint-Pillar、PillarNetといったベースラインモデルよりも大幅なパフォーマンス向上を実現している。
- 参考スコア(独自算出の注目度): 11.798670216671631
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing high-performance, real-time architectures for LiDAR-based 3D
object detectors is essential for the successful commercialization of
autonomous vehicles. Pillar-based methods stand out as a practical choice for
onboard deployment due to their computational efficiency. However, despite
their efficiency, these methods can sometimes underperform compared to
alternative point encoding techniques such as Voxel-encoding or PointNet++. We
argue that current pillar-based methods have not sufficiently captured the
fine-grained distributions of LiDAR points within each pillar structure.
Consequently, there exists considerable room for improvement in pillar feature
encoding. In this paper, we introduce a novel pillar encoding architecture
referred to as Fine-Grained Pillar Feature Encoding (FG-PFE). FG-PFE utilizes
Spatio-Temporal Virtual (STV) grids to capture the distribution of point clouds
within each pillar across vertical, temporal, and horizontal dimensions.
Through STV grids, points within each pillar are individually encoded using
Vertical PFE (V-PFE), Temporal PFE (T-PFE), and Horizontal PFE (H-PFE). These
encoded features are then aggregated through an Attentive Pillar Aggregation
method. Our experiments conducted on the nuScenes dataset demonstrate that
FG-PFE achieves significant performance improvements over baseline models such
as PointPillar, CenterPoint-Pillar, and PillarNet, with only a minor increase
in computational overhead.
- Abstract(参考訳): LiDARベースの3Dオブジェクト検出器のための高性能リアルタイムアーキテクチャの開発は、自動運転車の商業化の成功に不可欠である。
Pillarベースの手法は、その計算効率のため、オンボードデプロイメントの実践的な選択である。
しかし、その効率にもかかわらず、これらの手法はVoxel-encodingやPointNet++のような代替のポイントエンコーディング技術に比べて性能が劣ることがある。
現在の柱ベース手法では各柱構造内のライダー点の細粒度分布を十分に捉えていない。
したがって、柱の特徴エンコーディングを改善する余地は十分にある。
本稿では,ファイングラインドピラー特徴符号化(FG-PFE)と呼ばれる新しい柱符号化アーキテクチャを提案する。
FG-PFEは、垂直次元、時間次元、水平次元にまたがる各柱内の点雲の分布を捉えるために、時空間(STV)グリッドを使用する。
STVグリッドを通じて、各柱内の点を垂直PFE(V-PFE)、時間PFE(T-PFE)、水平PFE(H-PFE)を用いて個別に符号化する。
これらの符号化された機能は、Attentive Pillar Aggregationメソッドを通じて集約される。
nuScenesデータセットを用いて行った実験により、FG-PFEはPointPillar、CenterPoint-Pillar、PillarNetといったベースラインモデルよりも大幅に性能が向上し、計算オーバーヘッドはわずかに増加した。
関連論文リスト
- Multi-scale Feature Fusion with Point Pyramid for 3D Object Detection [18.41721888099563]
本稿では,POP-RCNN(Point Pyramid RCNN)を提案する。
提案手法は, 様々な既存フレームワークに適用して, 特に長距離検出において, 特徴の豊かさを高めることができる。
論文 参考訳(メタデータ) (2024-09-06T20:13:14Z) - PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - PillarHist: A Quantization-aware Pillar Feature Encoder based on Height-aware Histogram [21.812058381531212]
リアルタイムかつ高性能な3Dオブジェクト検出は、自律走行とロボット工学において重要な役割を果たす。
最近の柱型3次元物体検出器は、そのコンパクトな表現と計算オーバーヘッドの低さから注目されている。
しかし、既存の柱型検出器は、高さ寸法と大きな数値分布差に沿って情報損失を被っている。
論文 参考訳(メタデータ) (2024-05-29T03:28:16Z) - PointRWKV: Efficient RWKV-Like Model for Hierarchical Point Cloud Learning [56.14518823931901]
NLP分野におけるRWKVモデルから導かれる線形複雑性のモデルであるPointRWKVを提案する。
まず,改良型マルチヘッド行列値状態を用いて,PointRWKVブロック内のグローバル処理機能について検討する。
局所的な幾何学的特徴を同時に抽出するために,グラフ安定化器を用いた固定半径近傍グラフにおいて,点雲を効率的に符号化する並列分岐を設計する。
論文 参考訳(メタデータ) (2024-05-24T05:02:51Z) - PointOcc: Cylindrical Tri-Perspective View for Point-based 3D Semantic
Occupancy Prediction [72.75478398447396]
本稿では,点雲を効果的かつ包括的に表現する円筒型三重対視図を提案する。
また,LiDAR点雲の距離分布を考慮し,円筒座標系における三点ビューを構築した。
プロジェクション中に構造の詳細を維持するために空間群プーリングを使用し、各TPV平面を効率的に処理するために2次元バックボーンを採用する。
論文 参考訳(メタデータ) (2023-08-31T17:57:17Z) - Voxel or Pillar: Exploring Efficient Point Cloud Representation for 3D
Object Detection [49.324070632356296]
我々は3次元および2次元のスパース畳み込みにより点雲をボクセルと柱の特徴に符号化するスパース・ボクセル・ピラーエンコーダを開発した。
我々の効率的で完全なスパース法は、密度検出器とスパース検出器の両方にシームレスに統合できる。
論文 参考訳(メタデータ) (2023-04-06T05:00:58Z) - Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud
Analysis [66.49788145564004]
我々は、任意の幾何学と位相の不規則な3次元点雲を表現するために、Flattning-Netと呼ばれる教師なしのディープニューラルネットワークを提案する。
我々の手法は、現在の最先端の競合相手に対して好意的に機能する。
論文 参考訳(メタデータ) (2022-12-17T15:05:25Z) - Centralized Feature Pyramid for Object Detection [53.501796194901964]
視覚的特徴ピラミッドは、広範囲のアプリケーションにおいて、有効性と効率の両方において、その優位性を示している。
本稿では,オブジェクト検出のためのOLO特徴ピラミッドを提案する。
論文 参考訳(メタデータ) (2022-10-05T08:32:54Z) - CVFNet: Real-time 3D Object Detection by Learning Cross View Features [11.402076835949824]
CVFNetと呼ばれるリアルタイムビューベースの1段3Dオブジェクト検出器を提案する。
本稿ではまず,複数の段階において,ポイント・アンド・レンジ・ビュー機能を深く統合した新しいポイント・ラウンジ機能融合モジュールを提案する。
次に, 得られた深度視点特徴を鳥の目視に変換する際に, 3次元形状を良好に維持する特別のスライスピラーを設計する。
論文 参考訳(メタデータ) (2022-03-13T06:23:18Z) - Improved Pillar with Fine-grained Feature for 3D Object Detection [23.348710029787068]
LiDAR点雲を用いた3次元物体検出は、自律走行知覚モジュールにおいて重要な役割を果たす。
既存の点ベースの手法は、生の点が多すぎるため、速度要件に到達するのが困難である。
PointPillarのような2Dグリッドベースの手法は、単純な2D畳み込みに基づいて、安定的で効率的な速度を容易に達成できる。
論文 参考訳(メタデータ) (2021-10-12T14:53:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。