論文の概要: Searching Efficient 3D Architectures with Sparse Point-Voxel Convolution
- arxiv url: http://arxiv.org/abs/2007.16100v2
- Date: Thu, 13 Aug 2020 13:53:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 06:37:26.284239
- Title: Searching Efficient 3D Architectures with Sparse Point-Voxel Convolution
- Title(参考訳): スパースポイントボクセル畳み込みによる効率的な3次元アーキテクチャの探索
- Authors: Haotian Tang, Zhijian Liu, Shengyu Zhao, Yujun Lin, Ji Lin, Hanrui
Wang, Song Han
- Abstract要約: 自動運転車は安全に運転するために、3Dシーンを効率的に正確に理解する必要がある。
既存の3次元知覚モデルは、低解像度のボキセル化とアグレッシブなダウンサンプリングのために、小さなインスタンスを十分に認識できない。
Sparse Point-Voxel Convolution (SPVConv) は,バニラ・スパース・コンボリューションを高分解能な点ベース分岐に装備する軽量な3次元モジュールである。
- 参考スコア(独自算出の注目度): 34.713667358316286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-driving cars need to understand 3D scenes efficiently and accurately in
order to drive safely. Given the limited hardware resources, existing 3D
perception models are not able to recognize small instances (e.g., pedestrians,
cyclists) very well due to the low-resolution voxelization and aggressive
downsampling. To this end, we propose Sparse Point-Voxel Convolution (SPVConv),
a lightweight 3D module that equips the vanilla Sparse Convolution with the
high-resolution point-based branch. With negligible overhead, this point-based
branch is able to preserve the fine details even from large outdoor scenes. To
explore the spectrum of efficient 3D models, we first define a flexible
architecture design space based on SPVConv, and we then present 3D Neural
Architecture Search (3D-NAS) to search the optimal network architecture over
this diverse design space efficiently and effectively. Experimental results
validate that the resulting SPVNAS model is fast and accurate: it outperforms
the state-of-the-art MinkowskiNet by 3.3%, ranking 1st on the competitive
SemanticKITTI leaderboard. It also achieves 8x computation reduction and 3x
measured speedup over MinkowskiNet with higher accuracy. Finally, we transfer
our method to 3D object detection, and it achieves consistent improvements over
the one-stage detection baseline on KITTI.
- Abstract(参考訳): 自動運転車は安全運転のために3dシーンを効率的に正確に理解する必要がある。
ハードウェアリソースが限られているため、既存の3D認識モデルは、低解像度のボキセル化とアグレッシブなダウンサンプリングのために、小さなインスタンス(例えば歩行者やサイクリスト)を認識できない。
この目的のために,バニラ・スパース・コンボリューションと高分解能な点ベース分岐を備えた軽量3次元モジュールであるスパース・ポイント・ボクセル・コンボリューション(SPVConv)を提案する。
オーバーヘッドが無視できるので、このポイントベースのブランチは、大きな屋外シーンからでも詳細を保存できる。
効率的な3dモデルのスペクトルを探るために、まずspvconvに基づく柔軟なアーキテクチャ設計空間を定義し、3dニューラルネットワーク探索(3d-nas)により、この多様な設計空間上で最適なネットワークアーキテクチャを効率的かつ効果的に探索する。
実験の結果、spvnasモデルは高速かつ正確であることが証明され、minkowskinetを3.3%上回り、semantickitti leaderboardで1位となった。
また、minkowskinetの8倍の計算削減と3倍の高速化を実現している。
最後に,本手法を3次元オブジェクト検出に転送し,KITTIの1段検出ベースラインに対して一貫した改善を実現する。
関連論文リスト
- FastOcc: Accelerating 3D Occupancy Prediction by Fusing the 2D
Bird's-Eye View and Perspective View [46.81548000021799]
自律運転において、3D占有率予測は、より包括的な3Dシーンの理解のために、ボクセル的なステータスとセマンティックラベルを出力する。
近年,ビュートランスフォーメーション技術,地味ラベル生成,精巧なネットワーク設計など,この課題のさまざまな側面を幅広く研究している。
FastOccと呼ばれる新しい手法が提案され、精度を維持しながらモデルを高速化する。
Occ3D-nuScenesベンチマークの実験は、FastOccが高速な推論速度を達成することを示した。
論文 参考訳(メタデータ) (2024-03-05T07:01:53Z) - 3D Small Object Detection with Dynamic Spatial Pruning [62.72638845817799]
本稿では,3次元小物体検出のための効率的な特徴解析手法を提案する。
空間分解能の高いDSPDet3Dというマルチレベル3次元検出器を提案する。
ほぼ全ての物体を検知しながら、4500k以上のポイントからなる建物全体を直接処理するには2秒もかからない。
論文 参考訳(メタデータ) (2023-05-05T17:57:04Z) - FastPillars: A Deployment-friendly Pillar-based 3D Detector [63.0697065653061]
既存のBEVベースの(つまりバードアイビュー)検出器は、トレーニングと推論を高速化するためにスパース・コンボリューション(SPConv)を好む。
FastPillarsは、CenterPoint(SPConvベース)よりも1.8倍のスピードアップと3.8mAPH/L2の改善で、Openデータセットの最先端の精度を提供する
論文 参考訳(メタデータ) (2023-02-05T12:13:27Z) - PVNAS: 3D Neural Architecture Search with Point-Voxel Convolution [26.059213743430192]
効率の観点から3次元深層学習について検討する。
ハードウェア効率の良い新しい3DプリミティブであるPoint-Voxel Convolution(PVConv)を提案する。
論文 参考訳(メタデータ) (2022-04-25T17:13:55Z) - HVPR: Hybrid Voxel-Point Representation for Single-stage 3D Object
Detection [39.64891219500416]
3Dオブジェクト検出手法は、シーン内の3Dオブジェクトを表現するために、ボクセルベースまたはポイントベースの特徴を利用する。
本稿では,voxelベースとポイントベースの両方の特徴を有する,新しい単段3次元検出手法を提案する。
論文 参考訳(メタデータ) (2021-04-02T06:34:49Z) - PV-RCNN++: Point-Voxel Feature Set Abstraction With Local Vector
Representation for 3D Object Detection [100.60209139039472]
点雲からの正確な3次元検出を行うために,PointVoxel Region based Convolution Neural Networks (PVRCNNs)を提案する。
提案するPV-RCNNは,Openデータセットと高競争性KITTIベンチマークの両方において,従来の最先端3D検出方法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-01-31T14:51:49Z) - Fast and Furious: Real Time End-to-End 3D Detection, Tracking and Motion
Forecasting with a Single Convolutional Net [93.51773847125014]
本研究では,3Dセンサが捉えたデータを用いて,3D検出,追跡,動作予測を共同で推論する,新たなディープニューラルネットワークを提案する。
鳥の眼球を3次元の世界として表現し,空間と時間にまたがる3次元畳み込みを行う。
論文 参考訳(メタデータ) (2020-12-22T22:43:35Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - ZoomNet: Part-Aware Adaptive Zooming Neural Network for 3D Object
Detection [69.68263074432224]
ステレオ画像に基づく3D検出のためのZoomNetという新しいフレームワークを提案する。
ZoomNetのパイプラインは、通常の2Dオブジェクト検出モデルから始まり、左右のバウンディングボックスのペアを取得するために使用される。
さらに,RGB画像のテクスチャキューを多用し,より正確な異質度推定を行うため,適応ズームという概念的に真直ぐなモジュールを導入する。
論文 参考訳(メタデータ) (2020-03-01T17:18:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。