論文の概要: Ada3D : Exploiting the Spatial Redundancy with Adaptive Inference for
Efficient 3D Object Detection
- arxiv url: http://arxiv.org/abs/2307.08209v1
- Date: Mon, 17 Jul 2023 02:58:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 14:52:16.204101
- Title: Ada3D : Exploiting the Spatial Redundancy with Adaptive Inference for
Efficient 3D Object Detection
- Title(参考訳): Ada3D : 効率的な3Dオブジェクト検出のための適応推論による空間冗長性の爆発
- Authors: Tianchen Zhao, Xuefei Ning, Ke Hong, Zhongyuan Qiu, Pu Lu, Yali Zhao,
Linfeng Zhang, Lipu Zhou, Guohao Dai, Huazhong Yang, Yu Wang
- Abstract要約: ボクセルに基づく手法は、自律運転における3次元物体検出の最先端性能を実現している。
それらの計算とメモリの大幅なコストは、資源に制約のある車両に適用する上での課題となる。
本稿では,入力レベルの空間冗長性を利用した適応型推論フレームワークAda3Dを提案する。
- 参考スコア(独自算出の注目度): 19.321076175294902
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Voxel-based methods have achieved state-of-the-art performance for 3D object
detection in autonomous driving. However, their significant computational and
memory costs pose a challenge for their application to resource-constrained
vehicles. One reason for this high resource consumption is the presence of a
large number of redundant background points in Lidar point clouds, resulting in
spatial redundancy in both 3D voxel and dense BEV map representations. To
address this issue, we propose an adaptive inference framework called Ada3D,
which focuses on exploiting the input-level spatial redundancy. Ada3D
adaptively filters the redundant input, guided by a lightweight importance
predictor and the unique properties of the Lidar point cloud. Additionally, we
utilize the BEV features' intrinsic sparsity by introducing the Sparsity
Preserving Batch Normalization. With Ada3D, we achieve 40% reduction for 3D
voxels and decrease the density of 2D BEV feature maps from 100% to 20% without
sacrificing accuracy. Ada3D reduces the model computational and memory cost by
5x, and achieves 1.52x/1.45x end-to-end GPU latency and 1.5x/4.5x GPU peak
memory optimization for the 3D and 2D backbone respectively.
- Abstract(参考訳): ボクセルに基づく手法は、自律運転における3次元物体検出の最先端性能を達成した。
しかし、その計算とメモリの大幅なコストは、資源に制約のある車両への適用に困難をもたらす。
この高い資源消費の理由の1つは、ライダー点雲に多数の冗長な背景点が存在することであり、3Dボクセルと密度の高いBEVマップ表現の両方に空間的冗長性をもたらす。
そこで本研究では,入力レベルの空間冗長性を利用した適応推論フレームワークAda3Dを提案する。
Ada3Dは、軽量な重要予測器とライダー点雲のユニークな特性によって導かれる冗長な入力を適応的にフィルタリングする。
さらに,バッチ正規化を保存するsparsityを導入することで,bevの特徴を生かしたsparsityを利用する。
Ada3Dでは、3Dボクセルの40%の削減を実現し、精度を犠牲にすることなく2D BEV特徴マップの密度を100%から20%に下げる。
Ada3Dはモデル計算とメモリコストを5倍に削減し、それぞれ3Dと2Dのバックボーンに対して1.52x/1.45xのGPUレイテンシと1.5x/4.5xのGPUピークメモリ最適化を実現する。
関連論文リスト
- SparseOcc: Rethinking Sparse Latent Representation for Vision-Based Semantic Occupancy Prediction [15.331332063879342]
我々はスパースポイントクラウド処理にインスパイアされた効率的な占有ネットワークであるSparseOccを提案する。
SparseOccは、密度の高いベースライン上のFLOPを74.9%減少させる。
また、12.8%から14.1%のmIOUまで精度が向上しており、これは部分的には空のボクセルに対する幻覚を回避できるスパース表現の能力に起因している。
論文 参考訳(メタデータ) (2024-04-15T06:45:06Z) - Regulating Intermediate 3D Features for Vision-Centric Autonomous
Driving [26.03800936700545]
本稿では,ボリュームレンダリングの助けを借りて,中間的な高密度な3次元特徴を規制することを提案する。
Occ3DデータセットとnuScenesデータセットの実験結果から、ヴァンパイアは密度の高い3D特徴の微細で適切な抽出を容易にすることが示された。
論文 参考訳(メタデータ) (2023-12-19T04:09:05Z) - Act3D: 3D Feature Field Transformers for Multi-Task Robotic Manipulation [18.964403296437027]
Act3Dは、手作業に依存する適応的な解像度を持つ3D特徴体を用いて、ロボットのワークスペースを表現する。
粗い方法で3Dポイントグリッドをサンプリングし、相対的な位置の注意を使ってそれらを巧みに加工し、次の点サンプリングのラウンドにフォーカスする場所を選択する。
論文 参考訳(メタデータ) (2023-06-30T17:34:06Z) - 3D Small Object Detection with Dynamic Spatial Pruning [66.46587362456157]
本稿では,3次元小物体検出のための効率的な特徴解析手法を提案する。
空間分解能の高いDSPDet3Dというマルチレベル3次元検出器を提案する。
ほぼ全ての物体を検知しながら、4500k以上のポイントからなる建物全体を直接処理するには2秒もかからない。
論文 参考訳(メタデータ) (2023-05-05T17:57:04Z) - Sparse2Dense: Learning to Densify 3D Features for 3D Object Detection [85.08249413137558]
LiDARが生成する点雲は、最先端の3Dオブジェクト検出器の主要な情報源である。
小さい、遠く、不完全な点の少ない物体は、しばしば検出するのが困難である。
Sparse2Denseは、潜在空間における点雲の密度化を学習することで、3D検出性能を効率的に向上する新しいフレームワークである。
論文 参考訳(メタデータ) (2022-11-23T16:01:06Z) - Spatial Pruned Sparse Convolution for Efficient 3D Object Detection [41.62839541489369]
3Dシーンは多数のバックグラウンドポイントによって支配されており、主に前景オブジェクトにフォーカスする必要がある検出タスクには冗長である。
本稿では,既存の3D CNNの主要なコンポーネントを分析し,データの冗長性を無視し,さらにダウンサンプリングプロセスでそれを増幅することにより,余分な計算オーバーヘッドと不要な計算オーバーヘッドを発生させる。
SPS-ConvとSPSS-ConvとSPRSの2つの変種を含む新しい畳み込み演算子を提案する。
論文 参考訳(メタデータ) (2022-09-28T16:19:06Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - FGR: Frustum-Aware Geometric Reasoning for Weakly Supervised 3D Vehicle
Detection [81.79171905308827]
3Dアノテーションを使わずに点雲中の車両を検出するためのフラストラム対応幾何推論(FGR)を提案する。
本手法は粗い3次元セグメンテーションと3次元バウンディングボックス推定の2段階からなる。
2Dバウンディングボックスとスパースポイントクラウドだけで、3D空間内のオブジェクトを正確に検出できます。
論文 参考訳(メタデータ) (2021-05-17T07:29:55Z) - 3D-FFS: Faster 3D object detection with Focused Frustum Search in sensor
fusion based networks [0.0]
センサフュージョンに基づく3Dオブジェクト検出ネットワークを高速化する新しいアプローチである3D-FFSを提案する。
3D-FFSは3D検索スペースを大幅に制限し、トレーニング時間、推論時間、メモリ消費を大幅に削減できます。
F-ConvNetと比較して62.84%、56.46%のトレーニングと推論時間の改善を実現し、メモリ使用量を58.53%削減しました。
論文 参考訳(メタデータ) (2021-03-15T11:32:21Z) - PLUME: Efficient 3D Object Detection from Stereo Images [95.31278688164646]
既存の手法では、2つのステップでこの問題に対処する: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。
この2つのタスクを同一のメトリック空間で統一するモデルを提案する。
提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-17T05:11:38Z) - ZoomNet: Part-Aware Adaptive Zooming Neural Network for 3D Object
Detection [69.68263074432224]
ステレオ画像に基づく3D検出のためのZoomNetという新しいフレームワークを提案する。
ZoomNetのパイプラインは、通常の2Dオブジェクト検出モデルから始まり、左右のバウンディングボックスのペアを取得するために使用される。
さらに,RGB画像のテクスチャキューを多用し,より正確な異質度推定を行うため,適応ズームという概念的に真直ぐなモジュールを導入する。
論文 参考訳(メタデータ) (2020-03-01T17:18:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。