論文の概要: PillarNeSt: Embracing Backbone Scaling and Pretraining for Pillar-based
3D Object Detection
- arxiv url: http://arxiv.org/abs/2311.17770v1
- Date: Wed, 29 Nov 2023 16:11:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 20:45:14.660864
- Title: PillarNeSt: Embracing Backbone Scaling and Pretraining for Pillar-based
3D Object Detection
- Title(参考訳): PillarNeSt: Pillarベースの3Dオブジェクト検出のためのバックボーンスケーリングと事前トレーニング
- Authors: Weixin Mao, Tiancai Wang, Diankun Zhang, Junjie Yan, Osamu Yoshie
- Abstract要約: 柱型3次元物体検出器における2次元バックボーンスケーリングと事前学習の有効性を示す。
提案する柱型検出器であるPillarNeStは、既存の3Dオブジェクト検出器よりも、nuScenesとArgoversev2データセットのマージンが大きい。
- 参考スコア(独自算出の注目度): 33.00510927880774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper shows the effectiveness of 2D backbone scaling and pretraining for
pillar-based 3D object detectors. Pillar-based methods mainly employ randomly
initialized 2D convolution neural network (ConvNet) for feature extraction and
fail to enjoy the benefits from the backbone scaling and pretraining in the
image domain. To show the scaling-up capacity in point clouds, we introduce the
dense ConvNet pretrained on large-scale image datasets (e.g., ImageNet) as the
2D backbone of pillar-based detectors. The ConvNets are adaptively designed
based on the model size according to the specific features of point clouds,
such as sparsity and irregularity. Equipped with the pretrained ConvNets, our
proposed pillar-based detector, termed PillarNeSt, outperforms the existing 3D
object detectors by a large margin on the nuScenes and Argoversev2 datasets.
Our code shall be released upon acceptance.
- Abstract(参考訳): 本稿では,柱型3次元物体検出器における2次元バックボーンスケーリングと事前学習の有効性を示す。
柱型手法は主にランダムに初期化された2次元畳み込みニューラルネットワーク(convnet)を用いて特徴抽出を行うが、バックボーンスケーリングや画像領域での事前学習の利点を享受できない。
ポイントクラウドのスケールアップ能力を示すために,大規模画像データセット(イメージネットなど)に事前学習された高密度convnetを,ピラー型検出器の2次元バックボーンとして導入する。
ConvNetsは、スパーシリティや不規則性といったポイントクラウドの特定の特徴に応じて、モデルサイズに基づいて適応的に設計されている。
提案した柱型検出器であるConvNetsを組み込んだPillarNeStは、既存の3Dオブジェクト検出器よりも、nuScenesとArgoversev2データセットのマージンが大きい。
我々のコードは受諾後に解放される。
関連論文リスト
- 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - Swin3D: A Pretrained Transformer Backbone for 3D Indoor Scene
Understanding [40.68012530554327]
室内3Dシーン理解のための3DバックボーンであるSSTを導入する。
我々は,線形メモリの複雑さを伴うスパースボクセルの自己アテンションを効率的に行える3Dスウィントランスを,バックボーンネットワークとして設計する。
我々のアプローチによって実現されたスケーラビリティ、汎用性、優れたパフォーマンスをさらに検証する大規模なアブレーション研究のシリーズである。
論文 参考訳(メタデータ) (2023-04-14T02:49:08Z) - Pillar R-CNN for Point Cloud 3D Object Detection [4.169126928311421]
我々はPillar R-CNNという概念的にシンプルで効果的な2段階の3D検出アーキテクチャを考案した。
我々のPillar R-CNNは、大規模Openデータセット上の最先端の3D検出器に対して好意的に動作します。
自律運転を含むアプリケーションに対するBEVのさらなる認識は、効果的でエレガントなPillar R-CNNアーキテクチャのおかげで可能になった。
論文 参考訳(メタデータ) (2023-02-26T12:07:25Z) - PartSLIP: Low-Shot Part Segmentation for 3D Point Clouds via Pretrained
Image-Language Models [56.324516906160234]
一般化可能な3D部分分割は重要だが、ビジョンとロボティクスでは難しい。
本稿では,事前学習した画像言語モデルGLIPを利用して,3次元点雲の低ショット部分分割法を提案する。
我々は2Dから3Dへの豊富な知識を、ポイントクラウドレンダリングにおけるGLIPに基づく部分検出と新しい2D-to-3Dラベルリフトアルゴリズムにより転送する。
論文 参考訳(メタデータ) (2022-12-03T06:59:01Z) - PillarNet: Real-Time and High-Performance Pillar-based 3D Object
Detection [4.169126928311421]
リアルタイムかつ高性能な3Dオブジェクト検出は、自動運転にとって重要な課題である。
最近のトップパフォーマンスの3Dオブジェクト検出器は、主に点ベースまたは3Dボクセルベースの畳み込みに依存している。
我々はPillarNetと呼ばれるリアルタイムかつ高性能な柱型検出器を開発した。
論文 参考訳(メタデータ) (2022-05-16T00:14:50Z) - RBGNet: Ray-based Grouping for 3D Object Detection [104.98776095895641]
本稿では,点雲からの正確な3次元物体検出のための投票型3次元検出器RBGNetフレームワークを提案する。
決定された光線群を用いて物体表面上の点方向の特徴を集約する。
ScanNet V2 と SUN RGB-D による最先端の3D 検出性能を実現する。
論文 参考訳(メタデータ) (2022-04-05T14:42:57Z) - CG-SSD: Corner Guided Single Stage 3D Object Detection from LiDAR Point
Cloud [4.110053032708927]
現実世界では、LiDARは限られた物体の表面点の雲しか取得できないが、物体の中心点は存在しない。
コーナー誘導型アンカーフリー単段3次元物体検出モデル(CG-SSD)を提案する。
CG-SSDは、単一フレームポイントクラウドデータを用いた教師付き3Dオブジェクト検出のためのONCEベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-02-24T02:30:15Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - Anchor-free 3D Single Stage Detector with Mask-Guided Attention for
Point Cloud [79.39041453836793]
我々は、点雲をアンカーフリーで検出する新しい1段3次元検出器を開発した。
ボクセルをベースとしたスパース3D特徴量からスパース2D特徴量マップに変換することでこれを克服する。
検出信頼度スコアとバウンディングボックス回帰の精度との相関性を改善するために,IoUに基づく検出信頼度再校正手法を提案する。
論文 参考訳(メタデータ) (2021-08-08T13:42:13Z) - ParaNet: Deep Regular Representation for 3D Point Clouds [62.81379889095186]
ParaNetは、3Dポイントクラウドを表現するための新しいエンドツーエンドのディープラーニングフレームワークである。
不規則な3D点雲を通常の2Dカラー画像に変換する。
多視点投影とボキセル化に基づく従来の正規表現法とは異なり、提案した表現は微分可能で可逆である。
論文 参考訳(メタデータ) (2020-12-05T13:19:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。