Fugu-MT 論文翻訳(概要): Fine-Grained Pillar Feature Encoding Via Spatio-Temporal Virtual Grid for 3D Object Detection

論文の概要: Fine-Grained Pillar Feature Encoding Via Spatio-Temporal Virtual Grid for 3D Object Detection

arxiv url: http://arxiv.org/abs/2403.06433v1
Date: Mon, 11 Mar 2024 04:58:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-12 20:10:33.270442
Title: Fine-Grained Pillar Feature Encoding Via Spatio-Temporal Virtual Grid for 3D Object Detection
Title（参考訳）: 3次元物体検出のための時空間仮想グリッドを用いた細粒化ピラー特徴符号化
Authors: Konyul Park, Yecheol Kim, Junho Koh, Byungwoo Park, Jun Won Choi
Abstract要約: Fine-Grained Pillar Feature (FG-PFE)は、LiDARベースの3Dオブジェクト検出器のための新しい符号化アーキテクチャである。 FG-PFEはPointPillar、CenterPoint-Pillar、PillarNetといったベースラインモデルよりも大幅なパフォーマンス向上を実現している。
参考スコア（独自算出の注目度）: 11.798670216671631
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Developing high-performance, real-time architectures for LiDAR-based 3D object detectors is essential for the successful commercialization of autonomous vehicles. Pillar-based methods stand out as a practical choice for onboard deployment due to their computational efficiency. However, despite their efficiency, these methods can sometimes underperform compared to alternative point encoding techniques such as Voxel-encoding or PointNet++. We argue that current pillar-based methods have not sufficiently captured the fine-grained distributions of LiDAR points within each pillar structure. Consequently, there exists considerable room for improvement in pillar feature encoding. In this paper, we introduce a novel pillar encoding architecture referred to as Fine-Grained Pillar Feature Encoding (FG-PFE). FG-PFE utilizes Spatio-Temporal Virtual (STV) grids to capture the distribution of point clouds within each pillar across vertical, temporal, and horizontal dimensions. Through STV grids, points within each pillar are individually encoded using Vertical PFE (V-PFE), Temporal PFE (T-PFE), and Horizontal PFE (H-PFE). These encoded features are then aggregated through an Attentive Pillar Aggregation method. Our experiments conducted on the nuScenes dataset demonstrate that FG-PFE achieves significant performance improvements over baseline models such as PointPillar, CenterPoint-Pillar, and PillarNet, with only a minor increase in computational overhead.
Abstract（参考訳）: LiDARベースの3Dオブジェクト検出器のための高性能リアルタイムアーキテクチャの開発は、自動運転車の商業化の成功に不可欠である。 Pillarベースの手法は、その計算効率のため、オンボードデプロイメントの実践的な選択である。しかし、その効率にもかかわらず、これらの手法はVoxel-encodingやPointNet++のような代替のポイントエンコーディング技術に比べて性能が劣ることがある。現在の柱ベース手法では各柱構造内のライダー点の細粒度分布を十分に捉えていない。したがって、柱の特徴エンコーディングを改善する余地は十分にある。本稿では,ファイングラインドピラー特徴符号化(FG-PFE)と呼ばれる新しい柱符号化アーキテクチャを提案する。 FG-PFEは、垂直次元、時間次元、水平次元にまたがる各柱内の点雲の分布を捉えるために、時空間(STV)グリッドを使用する。 STVグリッドを通じて、各柱内の点を垂直PFE(V-PFE)、時間PFE(T-PFE)、水平PFE(H-PFE)を用いて個別に符号化する。これらの符号化された機能は、Attentive Pillar Aggregationメソッドを通じて集約される。 nuScenesデータセットを用いて行った実験により、FG-PFEはPointPillar、CenterPoint-Pillar、PillarNetといったベースラインモデルよりも大幅に性能が向上し、計算オーバーヘッドはわずかに増加した。

関連論文リスト

PointVDP: Learning View-Dependent Projection by Fireworks Rays for 3D Point Cloud Segmentation [66.00721801098574]
本稿では,ポイントクラウドのセグメンテーションを容易にするために,ビュー依存プロジェクション(VDP)を提案する。 VDPは3Dポイント分布からデータ駆動プロジェクションを生成する。フレームワークを最適化するために色規則化を構築します。
論文参考訳（メタデータ） (2025-07-09T07:44:00Z)
Multi-scale Feature Fusion with Point Pyramid for 3D Object Detection [18.41721888099563]
本稿では,POP-RCNN(Point Pyramid RCNN)を提案する。提案手法は, 様々な既存フレームワークに適用して, 特に長距離検出において, 特徴の豊かさを高めることができる。
論文参考訳（メタデータ） (2024-09-06T20:13:14Z)
PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。 PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。 PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文参考訳（メタデータ） (2024-08-26T19:43:01Z)
PillarHist: A Quantization-aware Pillar Feature Encoder based on Height-aware Histogram [21.812058381531212]
リアルタイムかつ高性能な3Dオブジェクト検出は、自律走行とロボット工学において重要な役割を果たす。最近の柱型3次元物体検出器は、そのコンパクトな表現と計算オーバーヘッドの低さから注目されている。しかし、既存の柱型検出器は、高さ寸法と大きな数値分布差に沿って情報損失を被っている。
論文参考訳（メタデータ） (2024-05-29T03:28:16Z)
PointRWKV: Efficient RWKV-Like Model for Hierarchical Point Cloud Learning [56.14518823931901]
NLP分野におけるRWKVモデルから導かれる線形複雑性のモデルであるPointRWKVを提案する。まず,改良型マルチヘッド行列値状態を用いて,PointRWKVブロック内のグローバル処理機能について検討する。局所的な幾何学的特徴を同時に抽出するために,グラフ安定化器を用いた固定半径近傍グラフにおいて,点雲を効率的に符号化する並列分岐を設計する。
論文参考訳（メタデータ） (2024-05-24T05:02:51Z)
PillarTrack:Boosting Pillar Representation for Transformer-based 3D Single Object Tracking on Point Clouds [6.478734561409898]
LiDARベースの3Dオブジェクトトラッキング(3D SOT)は、ロボット工学と自動運転において重要な問題である。柱型3D SOTフレームワークであるPillarTrackを提案する。提案手法は,KITTIデータセットとNuScenesデータセットで同等の性能を実現する。
論文参考訳（メタデータ） (2024-04-11T06:06:56Z)
PointOcc: Cylindrical Tri-Perspective View for Point-based 3D Semantic Occupancy Prediction [72.75478398447396]
本稿では,点雲を効果的かつ包括的に表現する円筒型三重対視図を提案する。また,LiDAR点雲の距離分布を考慮し,円筒座標系における三点ビューを構築した。プロジェクション中に構造の詳細を維持するために空間群プーリングを使用し、各TPV平面を効率的に処理するために2次元バックボーンを採用する。
論文参考訳（メタデータ） (2023-08-31T17:57:17Z)
Voxel or Pillar: Exploring Efficient Point Cloud Representation for 3D Object Detection [49.324070632356296]
我々は3次元および2次元のスパース畳み込みにより点雲をボクセルと柱の特徴に符号化するスパース・ボクセル・ピラーエンコーダを開発した。我々の効率的で完全なスパース法は、密度検出器とスパース検出器の両方にシームレスに統合できる。
論文参考訳（メタデータ） (2023-04-06T05:00:58Z)
Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud Analysis [66.49788145564004]
我々は、任意の幾何学と位相の不規則な3次元点雲を表現するために、Flattning-Netと呼ばれる教師なしのディープニューラルネットワークを提案する。我々の手法は、現在の最先端の競合相手に対して好意的に機能する。
論文参考訳（メタデータ） (2022-12-17T15:05:25Z)
Centralized Feature Pyramid for Object Detection [53.501796194901964]
視覚的特徴ピラミッドは、広範囲のアプリケーションにおいて、有効性と効率の両方において、その優位性を示している。本稿では,オブジェクト検出のためのOLO特徴ピラミッドを提案する。
論文参考訳（メタデータ） (2022-10-05T08:32:54Z)
CVFNet: Real-time 3D Object Detection by Learning Cross View Features [11.402076835949824]
CVFNetと呼ばれるリアルタイムビューベースの1段3Dオブジェクト検出器を提案する。本稿ではまず,複数の段階において,ポイント・アンド・レンジ・ビュー機能を深く統合した新しいポイント・ラウンジ機能融合モジュールを提案する。次に, 得られた深度視点特徴を鳥の目視に変換する際に, 3次元形状を良好に維持する特別のスライスピラーを設計する。
論文参考訳（メタデータ） (2022-03-13T06:23:18Z)
Improved Pillar with Fine-grained Feature for 3D Object Detection [23.348710029787068]
LiDAR点雲を用いた3次元物体検出は、自律走行知覚モジュールにおいて重要な役割を果たす。既存の点ベースの手法は、生の点が多すぎるため、速度要件に到達するのが困難である。 PointPillarのような2Dグリッドベースの手法は、単純な2D畳み込みに基づいて、安定的で効率的な速度を容易に達成できる。
論文参考訳（メタデータ） (2021-10-12T14:53:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。