論文の概要: DSPDet3D: Dynamic Spatial Pruning for 3D Small Object Detection
- arxiv url: http://arxiv.org/abs/2305.03716v2
- Date: Mon, 5 Jun 2023 17:35:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 01:40:01.892981
- Title: DSPDet3D: Dynamic Spatial Pruning for 3D Small Object Detection
- Title(参考訳): DSPDet3D:3次元小物体検出のための動的空間プラニング
- Authors: Xiuwei Xu, Zhihao Sun, Ziwei Wang, Hongmin Liu, Jie Zhou, Jiwen Lu
- Abstract要約: 3Dオブジェクト検出器は、いまだに弱い幾何学的情報のために、小さなオブジェクトに苦戦している。
特徴マップの空間分解能の増大は3次元小物体検出の性能を著しく向上させる。
そこで我々は,DSPDet3Dという動的空間プルーニングを用いた高分解能マルチレベル検出器を提案する。
- 参考スコア(独自算出の注目度): 83.764253913142
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-grained 3D object detection is a core ability for agents to understand
their 3D environment and interact with surrounding objects. However, current
methods and benchmarks mainly focus on relatively large stuff. 3D object
detectors still struggle on small objects due to weak geometric information.
With in-depth study, we find increasing the spatial resolution of the feature
maps significantly boosts the performance of 3D small object detection. And
more interestingly, though the computational overhead increases dramatically
with resolution, the growth mainly comes from the upsampling operation of the
decoder. Inspired by this, we present a high-resolution multi-level detector
with dynamic spatial pruning named DSPDet3D, which detects objects from large
to small by iterative upsampling and meanwhile prunes the spatial
representation of the scene at regions where there is no smaller object to be
detected in higher resolution. We organize two benchmarks on ScanNet and
TO-SCENE dataset to evaluate the ability of fine-grained 3D object detection,
where our DSPDet3D improves the detection performance of small objects to a new
level while achieving leading inference speed compared with existing 3D object
detection methods. Moreover, DSPDet3D trained with only ScanNet rooms can
generalize well to scenes in larger scale. It takes less than 2s for DSPDet3D
to directly process a whole house or building consisting of dozens of rooms
while detecting out almost all objects, ranging from bottles to beds, on a
single RTX 3090 GPU. Project page: https://xuxw98.github.io/DSPDet3D/.
- Abstract(参考訳): きめ細かい3dオブジェクト検出は、エージェントが3d環境を理解し、周囲のオブジェクトとやり取りできるコア機能である。
しかしながら、現在のメソッドとベンチマークは主に比較的大きなものに焦点を当てています。
3dオブジェクト検出器は、弱い幾何学的情報のためにまだ小さなオブジェクトで苦労している。
詳細な研究により,特徴マップの空間分解能の増大は3次元小物体検出の性能を著しく向上させることがわかった。
さらに興味深いことに、計算オーバーヘッドは解像度とともに劇的に増加するが、主にデコーダのアップサンプリング操作によって増大する。
そこで本研究では,DSPDet3Dという動的空間プルーニングを用いた高解像度マルチレベル検出器を提案する。
ScanNetとTO-SCENEデータセットの2つのベンチマークを編成し,DSPDet3Dは既存の3Dオブジェクト検出法と比較して推論速度を向上しつつ,小型オブジェクトの検出性能を新たなレベルに向上させる。
さらに、ScanNetルームのみで訓練されたDSPDet3Dは、大規模にシーンを一般化することができる。
dspdet3dは、1つのrtx 3090 gpuで、ボトルからベッドまで、ほぼすべてのオブジェクトを検出しながら、数十の部屋からなる家や建物全体を直接処理するのに2秒以下かかる。
プロジェクトページ: https://xuxw98.github.io/DSPDet3D/。
関連論文リスト
- RBGNet: Ray-based Grouping for 3D Object Detection [104.98776095895641]
本稿では,点雲からの正確な3次元物体検出のための投票型3次元検出器RBGNetフレームワークを提案する。
決定された光線群を用いて物体表面上の点方向の特徴を集約する。
ScanNet V2 と SUN RGB-D による最先端の3D 検出性能を実現する。
論文 参考訳(メタデータ) (2022-04-05T14:42:57Z) - Embracing Single Stride 3D Object Detector with Sparse Transformer [63.179720817019096]
自律走行のためのLiDARを用いた3次元物体検出では、物体サイズと入力シーンサイズとの比が2次元検出の場合に比べて有意に小さい。
多くの3D検出器は2D検出器の一般的な慣習に従っており、点雲の定量化後も特徴マップを分解する。
本稿では,SST(Single-stride Sparse Transformer)を提案する。
論文 参考訳(メタデータ) (2021-12-13T02:12:02Z) - Voxel-based 3D Detection and Reconstruction of Multiple Objects from a
Single Image [22.037472446683765]
入力画像から3次元特徴持ち上げ演算子を用いて3次元シーン空間に整合した3次元ボクセル特徴の正規格子を学習する。
この3Dボクセルの特徴に基づき,新しいCenterNet-3D検出ヘッドは3D空間におけるキーポイント検出として3D検出を定式化する。
我々は、粗度ボキセル化や、新しい局所PCA-SDF形状表現を含む、効率的な粗度から細度の再構成モジュールを考案する。
論文 参考訳(メタデータ) (2021-11-04T18:30:37Z) - HVPR: Hybrid Voxel-Point Representation for Single-stage 3D Object
Detection [39.64891219500416]
3Dオブジェクト検出手法は、シーン内の3Dオブジェクトを表現するために、ボクセルベースまたはポイントベースの特徴を利用する。
本稿では,voxelベースとポイントベースの両方の特徴を有する,新しい単段3次元検出手法を提案する。
論文 参考訳(メタデータ) (2021-04-02T06:34:49Z) - PLUME: Efficient 3D Object Detection from Stereo Images [95.31278688164646]
既存の手法では、2つのステップでこの問題に対処する: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。
この2つのタスクを同一のメトリック空間で統一するモデルを提案する。
提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-17T05:11:38Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - DSGN: Deep Stereo Geometry Network for 3D Object Detection [79.16397166985706]
画像ベースとLiDARベースの3Dオブジェクト検出器の間には大きなパフォーマンスギャップがある。
我々の手法であるDeep Stereo Geometry Network (DSGN)は,このギャップを著しく低減する。
初めて、シンプルで効果的な1段ステレオベースの3D検出パイプラインを提供する。
論文 参考訳(メタデータ) (2020-01-10T11:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。