論文の概要: SRCN3D: Sparse R-CNN 3D for Compact Convolutional Multi-View 3D Object
Detection and Tracking
- arxiv url: http://arxiv.org/abs/2206.14451v3
- Date: Sun, 2 Jul 2023 01:11:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-04 15:57:43.010417
- Title: SRCN3D: Sparse R-CNN 3D for Compact Convolutional Multi-View 3D Object
Detection and Tracking
- Title(参考訳): srcn3d:コンパクトな畳み込み型マルチビュー3dオブジェクト検出と追跡のためのスパースr-cnn3d
- Authors: Yining Shi, Jingyan Shen, Yifan Sun, Yunlong Wang, Jiaxin Li, Shiqi
Sun, Kun Jiang, Diange Yang
- Abstract要約: 本稿では,スパースクエリ,ボックスワイズサンプリングによるスパースアテンション,スパース予測を組み込んだ新しい2段フルスパース検出器であるスパースR-CNN3Dを提案する。
nuScenesデータセットの実験では、SRCN3Dは3Dオブジェクト検出とマルチオブジェクト追跡の両方で競合性能を達成している。
- 参考スコア(独自算出の注目度): 12.285423418301683
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detection and tracking of moving objects is an essential component in
environmental perception for autonomous driving. In the flourishing field of
multi-view 3D camera-based detectors, different transformer-based pipelines are
designed to learn queries in 3D space from 2D feature maps of perspective
views, but the dominant dense BEV query mechanism is computationally
inefficient. This paper proposes Sparse R-CNN 3D (SRCN3D), a novel two-stage
fully-sparse detector that incorporates sparse queries, sparse attention with
box-wise sampling, and sparse prediction. SRCN3D adopts a cascade structure
with the twin-track update of both a fixed number of query boxes and latent
query features. Our novel sparse feature sampling module only utilizes local 2D
region of interest (RoI) features calculated by the projection of 3D query
boxes for further box refinement, leading to a fully-convolutional and
deployment-friendly pipeline. For multi-object tracking, motion features, query
features and RoI features are comprehensively utilized in multi-hypotheses data
association. Extensive experiments on nuScenes dataset demonstrate that SRCN3D
achieves competitive performance in both 3D object detection and multi-object
tracking tasks, while also exhibiting superior efficiency compared to
transformer-based methods. Code and models are available at
https://github.com/synsin0/SRCN3D.
- Abstract(参考訳): 移動物体の検出と追跡は、自律運転における環境認識の重要な要素である。
マルチビューカメラベース検出器の発達する分野において、異なるトランスフォーマーベースのパイプラインは視点ビューの2次元特徴マップから3次元空間でのクエリを学習するために設計されているが、支配的なBEVクエリメカニズムは計算的に非効率である。
本稿では、スパースクエリ、ボックスワイズサンプリングによるスパースアテンション、スパース予測を含む2段階フルスパース検出器であるスパースR-CNN3Dを提案する。
SRCN3Dは、固定数のクエリボックスと遅延クエリ機能の両方をツイントラックで更新するカスケード構造を採用している。
新しいスパース機能サンプリングモジュールは、3dクエリボックスのプロジェクションによって計算される局所的な2次元関心領域(roi)機能のみを利用するため、完全な畳み込みとデプロイフレンドリなパイプラインへと繋がる。
マルチオブジェクト追跡では、モーション機能、クエリ機能、roi機能がマルチハイポテーゼデータアソシエーションで包括的に活用されている。
nuScenesデータセットの大規模な実験により、SRCN3Dは3Dオブジェクト検出と多目的追跡タスクの両方において競合性能を達成し、トランスフォーマーベースの手法よりも優れた効率を示した。
コードとモデルはhttps://github.com/synsin0/SRCN3Dで入手できる。
関連論文リスト
- 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - UniTR: A Unified and Efficient Multi-Modal Transformer for
Bird's-Eye-View Representation [113.35352122662752]
屋外3次元知覚のためのマルチモーダルバックボーンUniTRを提案する。
UniTRは、統一されたモデリングと共有パラメータで様々なモダリティを処理する。
UniTRは基本的にタスクに依存しないバックボーンであり、異なる3D知覚タスクを自然にサポートする。
論文 参考訳(メタデータ) (2023-08-15T12:13:44Z) - 3D Small Object Detection with Dynamic Spatial Pruning [62.72638845817799]
本稿では,3次元小物体検出のための効率的な特徴解析手法を提案する。
空間分解能の高いDSPDet3Dというマルチレベル3次元検出器を提案する。
ほぼ全ての物体を検知しながら、4500k以上のポイントからなる建物全体を直接処理するには2秒もかからない。
論文 参考訳(メタデータ) (2023-05-05T17:57:04Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - Improving 3D Object Detection with Channel-wise Transformer [58.668922561622466]
我々は手作りの最小限の設計で2段階の3Dオブジェクト検出フレームワーク(CT3D)を提案する。
CT3Dは、提案対応の埋め込みとチャンネルワイドコンテキストアグリゲーションを同時に行う。
これはKITTIテスト3D検出ベンチマークで中等車カテゴリーで81.77%のAPを達成した。
論文 参考訳(メタデータ) (2021-08-23T02:03:40Z) - HVPR: Hybrid Voxel-Point Representation for Single-stage 3D Object
Detection [39.64891219500416]
3Dオブジェクト検出手法は、シーン内の3Dオブジェクトを表現するために、ボクセルベースまたはポイントベースの特徴を利用する。
本稿では,voxelベースとポイントベースの両方の特徴を有する,新しい単段3次元検出手法を提案する。
論文 参考訳(メタデータ) (2021-04-02T06:34:49Z) - PLUME: Efficient 3D Object Detection from Stereo Images [95.31278688164646]
既存の手法では、2つのステップでこの問題に対処する: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。
この2つのタスクを同一のメトリック空間で統一するモデルを提案する。
提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-17T05:11:38Z) - Relation3DMOT: Exploiting Deep Affinity for 3D Multi-Object Tracking
from View Aggregation [8.854112907350624]
3Dマルチオブジェクトトラッキングは、自律ナビゲーションにおいて重要な役割を果たす。
多くのアプローチでは、トラッキングのための2次元RGBシーケンス内のオブジェクトを検出するが、これは3次元空間内のオブジェクトをローカライズする際の信頼性の欠如である。
本稿では,隣接フレーム内の各オブジェクト間の相関をよりよく活用するために,RelationConvという新しい畳み込み演算を提案する。
論文 参考訳(メタデータ) (2020-11-25T16:14:40Z) - Generative Sparse Detection Networks for 3D Single-shot Object Detection [43.91336826079574]
3Dオブジェクト検出は、ロボット工学や拡張現実など多くの有望な分野に適用可能であるため、広く研究されている。
しかし、3Dデータのまばらな性質は、このタスクに固有の課題をもたらしている。
本稿では,完全畳み込み単一ショットスパース検出ネットワークであるGenerative Sparse Detection Network (GSDN)を提案する。
論文 参考訳(メタデータ) (2020-06-22T15:54:24Z) - SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint
Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。
SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。
構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文 参考訳(メタデータ) (2020-02-24T08:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。