論文の概要: Ada3D : Exploiting the Spatial Redundancy with Adaptive Inference for
Efficient 3D Object Detection
- arxiv url: http://arxiv.org/abs/2307.08209v2
- Date: Wed, 9 Aug 2023 03:18:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 17:11:38.332440
- Title: Ada3D : Exploiting the Spatial Redundancy with Adaptive Inference for
Efficient 3D Object Detection
- Title(参考訳): Ada3D : 効率的な3Dオブジェクト検出のための適応推論による空間冗長性の爆発
- Authors: Tianchen Zhao, Xuefei Ning, Ke Hong, Zhongyuan Qiu, Pu Lu, Yali Zhao,
Linfeng Zhang, Lipu Zhou, Guohao Dai, Huazhong Yang, Yu Wang
- Abstract要約: ボクセルに基づく手法は、自律運転における3次元物体検出の最先端性能を実現している。
それらの計算とメモリの大幅なコストは、資源に制約のある車両に適用する上での課題となる。
本稿では,入力レベルの空間冗長性を利用した適応型推論フレームワークAda3Dを提案する。
- 参考スコア(独自算出の注目度): 19.321076175294902
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Voxel-based methods have achieved state-of-the-art performance for 3D object
detection in autonomous driving. However, their significant computational and
memory costs pose a challenge for their application to resource-constrained
vehicles. One reason for this high resource consumption is the presence of a
large number of redundant background points in Lidar point clouds, resulting in
spatial redundancy in both 3D voxel and dense BEV map representations. To
address this issue, we propose an adaptive inference framework called Ada3D,
which focuses on exploiting the input-level spatial redundancy. Ada3D
adaptively filters the redundant input, guided by a lightweight importance
predictor and the unique properties of the Lidar point cloud. Additionally, we
utilize the BEV features' intrinsic sparsity by introducing the Sparsity
Preserving Batch Normalization. With Ada3D, we achieve 40% reduction for 3D
voxels and decrease the density of 2D BEV feature maps from 100% to 20% without
sacrificing accuracy. Ada3D reduces the model computational and memory cost by
5x, and achieves 1.52x/1.45x end-to-end GPU latency and 1.5x/4.5x GPU peak
memory optimization for the 3D and 2D backbone respectively.
- Abstract(参考訳): ボクセルに基づく手法は、自律運転における3次元物体検出の最先端性能を達成した。
しかし、その計算とメモリの大幅なコストは、資源に制約のある車両への適用に困難をもたらす。
この高い資源消費の理由の1つは、ライダー点雲に多数の冗長な背景点が存在することであり、3Dボクセルと密度の高いBEVマップ表現の両方に空間的冗長性をもたらす。
そこで本研究では,入力レベルの空間冗長性を利用した適応推論フレームワークAda3Dを提案する。
Ada3Dは、軽量な重要予測器とライダー点雲のユニークな特性によって導かれる冗長な入力を適応的にフィルタリングする。
さらに,バッチ正規化を保存するsparsityを導入することで,bevの特徴を生かしたsparsityを利用する。
Ada3Dでは、3Dボクセルの40%の削減を実現し、精度を犠牲にすることなく2D BEV特徴マップの密度を100%から20%に下げる。
Ada3Dはモデル計算とメモリコストを5倍に削減し、それぞれ3Dと2Dのバックボーンに対して1.52x/1.45xのGPUレイテンシと1.5x/4.5xのGPUピークメモリ最適化を実現する。
関連論文リスト
- Robust 3D Semantic Occupancy Prediction with Calibration-free Spatial Transformation [32.50849425431012]
マルチカメラとLiDARを備えた自動運転車では、高精度で堅牢な予測のために、マルチセンサー情報を統一された3D空間に集約することが重要である。
最近の手法は主にセンサキャリブレーションに依存する2D-to-3D変換に基づいて構築され,2D画像情報を3D空間に投影する。
本研究では,空間対応を暗黙的にモデル化するために,バニラ注意に基づく校正自由空間変換を提案する。
論文 参考訳(メタデータ) (2024-11-19T02:40:42Z) - 3DGS-DET: Empower 3D Gaussian Splatting with Boundary Guidance and Box-Focused Sampling for 3D Object Detection [12.14595005884025]
本稿では,3DGSを初めて3DODに導入し,主な課題を2つ挙げる。
2次元境界ガイダンスを組み込んだエレガントで効率的なソリューションを提案する。
また,3次元空間におけるオブジェクトの確率分布を生成するために2次元ボックスを用いたBox-Focused Smpling戦略を提案する。
論文 参考訳(メタデータ) (2024-10-02T15:15:52Z) - DM3D: Distortion-Minimized Weight Pruning for Lossless 3D Object Detection [42.07920565812081]
本稿では,3次元物体検出のための新しいトレーニング後の重み付け手法を提案する。
事前訓練されたモデルにおける冗長パラメータを決定し、局所性と信頼性の両方において最小限の歪みをもたらす。
本フレームワークは,ネットワーク出力の歪みを最小限に抑え,検出精度を最大に維持することを目的とする。
論文 参考訳(メタデータ) (2024-07-02T09:33:32Z) - SparseOcc: Rethinking Sparse Latent Representation for Vision-Based Semantic Occupancy Prediction [15.331332063879342]
我々はスパースポイントクラウド処理にインスパイアされた効率的な占有ネットワークであるSparseOccを提案する。
SparseOccは、密度の高いベースライン上のFLOPを74.9%減少させる。
また、12.8%から14.1%のmIOUまで精度が向上しており、これは部分的には空のボクセルに対する幻覚を回避できるスパース表現の能力に起因している。
論文 参考訳(メタデータ) (2024-04-15T06:45:06Z) - 3D Small Object Detection with Dynamic Spatial Pruning [62.72638845817799]
本稿では,3次元小物体検出のための効率的な特徴解析手法を提案する。
空間分解能の高いDSPDet3Dというマルチレベル3次元検出器を提案する。
ほぼ全ての物体を検知しながら、4500k以上のポイントからなる建物全体を直接処理するには2秒もかからない。
論文 参考訳(メタデータ) (2023-05-05T17:57:04Z) - Sparse2Dense: Learning to Densify 3D Features for 3D Object Detection [85.08249413137558]
LiDARが生成する点雲は、最先端の3Dオブジェクト検出器の主要な情報源である。
小さい、遠く、不完全な点の少ない物体は、しばしば検出するのが困難である。
Sparse2Denseは、潜在空間における点雲の密度化を学習することで、3D検出性能を効率的に向上する新しいフレームワークである。
論文 参考訳(メタデータ) (2022-11-23T16:01:06Z) - BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation [105.96557764248846]
本稿では,汎用マルチタスクマルチセンサ融合フレームワークであるBEVFusionを紹介する。
共有鳥眼ビュー表示空間におけるマルチモーダル特徴を統一する。
3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、コストは1.9倍である。
論文 参考訳(メタデータ) (2022-05-26T17:59:35Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - 3D-FFS: Faster 3D object detection with Focused Frustum Search in sensor
fusion based networks [0.0]
センサフュージョンに基づく3Dオブジェクト検出ネットワークを高速化する新しいアプローチである3D-FFSを提案する。
3D-FFSは3D検索スペースを大幅に制限し、トレーニング時間、推論時間、メモリ消費を大幅に削減できます。
F-ConvNetと比較して62.84%、56.46%のトレーニングと推論時間の改善を実現し、メモリ使用量を58.53%削減しました。
論文 参考訳(メタデータ) (2021-03-15T11:32:21Z) - PLUME: Efficient 3D Object Detection from Stereo Images [95.31278688164646]
既存の手法では、2つのステップでこの問題に対処する: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。
この2つのタスクを同一のメトリック空間で統一するモデルを提案する。
提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-17T05:11:38Z) - ZoomNet: Part-Aware Adaptive Zooming Neural Network for 3D Object
Detection [69.68263074432224]
ステレオ画像に基づく3D検出のためのZoomNetという新しいフレームワークを提案する。
ZoomNetのパイプラインは、通常の2Dオブジェクト検出モデルから始まり、左右のバウンディングボックスのペアを取得するために使用される。
さらに,RGB画像のテクスチャキューを多用し,より正確な異質度推定を行うため,適応ズームという概念的に真直ぐなモジュールを導入する。
論文 参考訳(メタデータ) (2020-03-01T17:18:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。