論文の概要: PVNAS: 3D Neural Architecture Search with Point-Voxel Convolution
- arxiv url: http://arxiv.org/abs/2204.11797v1
- Date: Mon, 25 Apr 2022 17:13:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-26 12:56:05.477397
- Title: PVNAS: 3D Neural Architecture Search with Point-Voxel Convolution
- Title(参考訳): PVNAS:ポイントボクセル畳み込みによる3次元ニューラルネットワーク探索
- Authors: Zhijian Liu, Haotian Tang, Shengyu Zhao, Kevin Shao, Song Han
- Abstract要約: 効率の観点から3次元深層学習について検討する。
ハードウェア効率の良い新しい3DプリミティブであるPoint-Voxel Convolution(PVConv)を提案する。
- 参考スコア(独自算出の注目度): 26.059213743430192
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D neural networks are widely used in real-world applications (e.g., AR/VR
headsets, self-driving cars). They are required to be fast and accurate;
however, limited hardware resources on edge devices make these requirements
rather challenging. Previous work processes 3D data using either voxel-based or
point-based neural networks, but both types of 3D models are not
hardware-efficient due to the large memory footprint and random memory access.
In this paper, we study 3D deep learning from the efficiency perspective. We
first systematically analyze the bottlenecks of previous 3D methods. We then
combine the best from point-based and voxel-based models together and propose a
novel hardware-efficient 3D primitive, Point-Voxel Convolution (PVConv). We
further enhance this primitive with the sparse convolution to make it more
effective in processing large (outdoor) scenes. Based on our designed 3D
primitive, we introduce 3D Neural Architecture Search (3D-NAS) to explore the
best 3D network architecture given a resource constraint. We evaluate our
proposed method on six representative benchmark datasets, achieving
state-of-the-art performance with 1.8-23.7x measured speedup. Furthermore, our
method has been deployed to the autonomous racing vehicle of MIT Driverless,
achieving larger detection range, higher accuracy and lower latency.
- Abstract(参考訳): 3Dニューラルネットワークは現実世界のアプリケーション(AR/VRヘッドセットや自動運転車など)で広く利用されている。
しかし、エッジデバイス上の限られたハードウェアリソースは、これらの要求をかなり困難にしている。
以前の作業では、ボクセルベースまたはポイントベースニューラルネットワークを使用して3Dデータを処理していたが、大きなメモリフットプリントとランダムメモリアクセスのため、どちらのタイプの3Dモデルもハードウェア効率が良くない。
本稿では,効率の観点から3次元深層学習について検討する。
まず,従来の3D手法のボトルネックを系統的に解析する。
次に,ポイントベースモデルとボクセルモデルを組み合わせて,新しいハードウェア効率の3DプリミティブであるPoint-Voxel Convolution(PVConv)を提案する。
我々はさらにこのプリミティブをスパース畳み込みで強化し、大きな(ドア外)シーンの処理をより効果的にします。
設計した3dプリミティブに基づき、3dニューラルネットワーク探索(3d-nas)を導入し、リソース制約を与えられた最適な3dネットワークアーキテクチャを探索する。
提案手法を6つの代表ベンチマークデータセットで評価し,1.8~23.7倍の高速化で最新性能を得た。
さらに、我々の手法はMIT Driverlessの自動運転車に展開され、より大きな検出範囲、高い精度、低レイテンシを実現している。
関連論文リスト
- PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - FastPillars: A Deployment-friendly Pillar-based 3D Detector [63.0697065653061]
既存のBEVベースの(つまりバードアイビュー)検出器は、トレーニングと推論を高速化するためにスパース・コンボリューション(SPConv)を好む。
FastPillarsは、CenterPoint(SPConvベース)よりも1.8倍のスピードアップと3.8mAPH/L2の改善で、Openデータセットの最先端の精度を提供する
論文 参考訳(メタデータ) (2023-02-05T12:13:27Z) - Omni3D: A Large Benchmark and Model for 3D Object Detection in the Wild [32.05421669957098]
大規模なデータセットとスケーラブルなソリューションは、2D認識において前例のない進歩をもたらした。
我々はOmni3Dと呼ばれる大規模なベンチマークを導入することで3Dオブジェクト検出の課題を再考する。
より大規模なOmni3Dおよび既存のベンチマークにおいて、Cube R-CNNが以前の作業より優れていることを示す。
論文 参考訳(メタデータ) (2022-07-21T17:56:22Z) - EGFN: Efficient Geometry Feature Network for Fast Stereo 3D Object
Detection [51.52496693690059]
高速ステレオベース3Dオブジェクト検出器は高精度指向法よりもはるかに遅れている。
主な理由として,高速ステレオ法における3次元幾何学的特徴表現の欠如や不足があげられる。
提案された EGFN は、YOLOStsereo3D よりも5.16%向上し、mAP$_3d$ をわずか12msで上回った。
論文 参考訳(メタデータ) (2021-11-28T05:25:36Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - Ground-aware Monocular 3D Object Detection for Autonomous Driving [6.5702792909006735]
1台のRGBカメラで環境中の物体の位置と向きを推定することは、低コストの都市自動運転と移動ロボットにとって難しい課題である。
既存のアルゴリズムのほとんどは、2D-3D対応における幾何学的制約に基づいており、これは一般的な6Dオブジェクトのポーズ推定に由来する。
深層学習の枠組みにおいて、そのようなアプリケーション固有の事前知識を完全に活用するための新しいニューラルネットワークモジュールを導入する。
論文 参考訳(メタデータ) (2021-02-01T08:18:24Z) - Fast and Furious: Real Time End-to-End 3D Detection, Tracking and Motion
Forecasting with a Single Convolutional Net [93.51773847125014]
本研究では,3Dセンサが捉えたデータを用いて,3D検出,追跡,動作予測を共同で推論する,新たなディープニューラルネットワークを提案する。
鳥の眼球を3次元の世界として表現し,空間と時間にまたがる3次元畳み込みを行う。
論文 参考訳(メタデータ) (2020-12-22T22:43:35Z) - Learning to Predict the 3D Layout of a Scene [0.3867363075280544]
本稿では,単一のRGB画像のみを使用する手法を提案し,LiDARセンサを持たないデバイスや車両に適用できるようにする。
KITTIデータセットは,クラスラベル付き道路交通シーン,2D境界ボックス,自由度7自由度3Dアノテーションで構成される。
我々は、公式のKITTIベンチマークで要求されるように、結合閾値70%の3次元交差で測定された適度に困難なデータに対して平均47.3%の平均精度を達成し、従来の最先端のRGBのみの手法よりも大きなマージンで上回った。
論文 参考訳(メタデータ) (2020-11-19T17:23:30Z) - Searching Efficient 3D Architectures with Sparse Point-Voxel Convolution [34.713667358316286]
自動運転車は安全に運転するために、3Dシーンを効率的に正確に理解する必要がある。
既存の3次元知覚モデルは、低解像度のボキセル化とアグレッシブなダウンサンプリングのために、小さなインスタンスを十分に認識できない。
Sparse Point-Voxel Convolution (SPVConv) は,バニラ・スパース・コンボリューションを高分解能な点ベース分岐に装備する軽量な3次元モジュールである。
論文 参考訳(メタデータ) (2020-07-31T14:27:27Z) - ZoomNet: Part-Aware Adaptive Zooming Neural Network for 3D Object
Detection [69.68263074432224]
ステレオ画像に基づく3D検出のためのZoomNetという新しいフレームワークを提案する。
ZoomNetのパイプラインは、通常の2Dオブジェクト検出モデルから始まり、左右のバウンディングボックスのペアを取得するために使用される。
さらに,RGB画像のテクスチャキューを多用し,より正確な異質度推定を行うため,適応ズームという概念的に真直ぐなモジュールを導入する。
論文 参考訳(メタデータ) (2020-03-01T17:18:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。