論文の概要: SRCN3D: Sparse R-CNN 3D Surround-View Camera Object Detection and
Tracking for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2206.14451v1
- Date: Wed, 29 Jun 2022 07:58:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-30 20:31:02.199138
- Title: SRCN3D: Sparse R-CNN 3D Surround-View Camera Object Detection and
Tracking for Autonomous Driving
- Title(参考訳): srcn3d:sparse r-cnn 3dサラウンドビューカメラの物体検出と自律走行追跡
- Authors: Yining Shi, Jingyan Shen, Yifan Sun, Yunlong Wang, Jiaxin Li, Shiqi
Sun, Kun Jiang, Diange Yang
- Abstract要約: 本稿では、サラウンドビューカメラ検出と追跡のための2段階完全畳み込みマッピングパイプラインであるスパースR-CNN 3D(SRCN3D)を提案する。
提案ボックスは、関心領域(RoI)の局所的特徴を集約するために、ビュービューに投影される。
nuScenesデータセットの実験により,提案したSRCN3D検出器とトラッカーの有効性が示された。
- 参考スコア(独自算出の注目度): 12.285423418301683
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detection And Tracking of Moving Objects (DATMO) is an essential component in
environmental perception for autonomous driving. While 3D detectors using
surround-view cameras are just flourishing, there is a growing tendency of
using different transformer-based methods to learn queries in 3D space from 2D
feature maps of perspective view. This paper proposes Sparse R-CNN 3D (SRCN3D),
a novel two-stage fully-convolutional mapping pipeline for surround-view camera
detection and tracking. SRCN3D adopts a cascade structure with twin-track
update of both fixed number of proposal boxes and proposal latent features.
Proposal boxes are projected to perspective view so as to aggregate Region of
Interest (RoI) local features. Based on that, proposal features are refined via
a dynamic instance interactive head, which then generates classification and
the offsets applied to original bounding boxes. Compared to prior arts, our
sparse feature sampling module only utilizes local 2D features for adjustment
of each corresponding 3D proposal box, leading to a complete sparse paradigm.
The proposal features and appearance features are both taken in data
association process in a multi-hypotheses 3D multi-object tracking approach.
Extensive experiments on nuScenes dataset demonstrate the effectiveness of our
proposed SRCN3D detector and tracker. Code is available at
https://github.com/synsin0/SRCN3D.
- Abstract(参考訳): 移動物体の検出・追跡(DATMO)は、自律運転における環境認識に欠かせない要素である。
サラウンドビューカメラを使用する3d検出器は、単に繁栄しているに過ぎないが、異なるトランスフォーマーベースの手法を使用して、2d特徴マップから3d空間でクエリを学習する傾向が増えている。
本稿では、サラウンドビューカメラ検出と追跡のための2段階完全畳み込みマッピングパイプラインであるスパースR-CNN 3D(SRCN3D)を提案する。
SRCN3Dは、固定数の提案ボックスと遅延機能の両方をツイントラックで更新するカスケード構造を採用している。
提案ボックスは、関心領域(RoI)の局所的特徴を集約するために、ビュービューに投影される。
それに基づいて、提案機能は動的インスタンスインタラクティブヘッドによって洗練され、分類と元のバウンディングボックスに適用されるオフセットを生成する。
従来の技術と比較して,スパース特徴サンプリングモジュールは,各3次元提案ボックスの調整にローカルな2次元特徴のみを利用するため,完全なスパースパラダイムが導かれる。
提案する特徴と外観特徴は, マルチハイブリッド3Dマルチオブジェクトトラッキングアプローチにおいて, データアソシエーションプロセスにおいて両立される。
提案したSRCN3D検出器とトラッカーの有効性を示す。
コードはhttps://github.com/synsin0/SRCN3Dで入手できる。
関連論文リスト
- 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - UniTR: A Unified and Efficient Multi-Modal Transformer for
Bird's-Eye-View Representation [113.35352122662752]
屋外3次元知覚のためのマルチモーダルバックボーンUniTRを提案する。
UniTRは、統一されたモデリングと共有パラメータで様々なモダリティを処理する。
UniTRは基本的にタスクに依存しないバックボーンであり、異なる3D知覚タスクを自然にサポートする。
論文 参考訳(メタデータ) (2023-08-15T12:13:44Z) - 3D Small Object Detection with Dynamic Spatial Pruning [62.72638845817799]
本稿では,3次元小物体検出のための効率的な特徴解析手法を提案する。
空間分解能の高いDSPDet3Dというマルチレベル3次元検出器を提案する。
ほぼ全ての物体を検知しながら、4500k以上のポイントからなる建物全体を直接処理するには2秒もかからない。
論文 参考訳(メタデータ) (2023-05-05T17:57:04Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - Improving 3D Object Detection with Channel-wise Transformer [58.668922561622466]
我々は手作りの最小限の設計で2段階の3Dオブジェクト検出フレームワーク(CT3D)を提案する。
CT3Dは、提案対応の埋め込みとチャンネルワイドコンテキストアグリゲーションを同時に行う。
これはKITTIテスト3D検出ベンチマークで中等車カテゴリーで81.77%のAPを達成した。
論文 参考訳(メタデータ) (2021-08-23T02:03:40Z) - HVPR: Hybrid Voxel-Point Representation for Single-stage 3D Object
Detection [39.64891219500416]
3Dオブジェクト検出手法は、シーン内の3Dオブジェクトを表現するために、ボクセルベースまたはポイントベースの特徴を利用する。
本稿では,voxelベースとポイントベースの両方の特徴を有する,新しい単段3次元検出手法を提案する。
論文 参考訳(メタデータ) (2021-04-02T06:34:49Z) - PLUME: Efficient 3D Object Detection from Stereo Images [95.31278688164646]
既存の手法では、2つのステップでこの問題に対処する: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。
この2つのタスクを同一のメトリック空間で統一するモデルを提案する。
提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-17T05:11:38Z) - Relation3DMOT: Exploiting Deep Affinity for 3D Multi-Object Tracking
from View Aggregation [8.854112907350624]
3Dマルチオブジェクトトラッキングは、自律ナビゲーションにおいて重要な役割を果たす。
多くのアプローチでは、トラッキングのための2次元RGBシーケンス内のオブジェクトを検出するが、これは3次元空間内のオブジェクトをローカライズする際の信頼性の欠如である。
本稿では,隣接フレーム内の各オブジェクト間の相関をよりよく活用するために,RelationConvという新しい畳み込み演算を提案する。
論文 参考訳(メタデータ) (2020-11-25T16:14:40Z) - Generative Sparse Detection Networks for 3D Single-shot Object Detection [43.91336826079574]
3Dオブジェクト検出は、ロボット工学や拡張現実など多くの有望な分野に適用可能であるため、広く研究されている。
しかし、3Dデータのまばらな性質は、このタスクに固有の課題をもたらしている。
本稿では,完全畳み込み単一ショットスパース検出ネットワークであるGenerative Sparse Detection Network (GSDN)を提案する。
論文 参考訳(メタデータ) (2020-06-22T15:54:24Z) - SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint
Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。
SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。
構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文 参考訳(メタデータ) (2020-02-24T08:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。