論文の概要: Sparse4D v3: Advancing End-to-End 3D Detection and Tracking
- arxiv url: http://arxiv.org/abs/2311.11722v1
- Date: Mon, 20 Nov 2023 12:37:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-21 19:08:16.601864
- Title: Sparse4D v3: Advancing End-to-End 3D Detection and Tracking
- Title(参考訳): sparse4d v3: エンドツーエンドの3d検出とトラッキング
- Authors: Xuewu Lin, Zixiang Pei, Tianwei Lin, Lichao Huang, Zhizhong Su
- Abstract要約: 本稿では,2つの補助訓練タスクを導入し,構造的改善のための分離された注意点を提案する。
推論中にインスタンスIDを割り当てる簡単なアプローチを使用して、検出器をトラッカーに拡張する。
我々の最良のモデルは nuScenes テストセットで 71.9% NDS と 67.7% AMOTA を達成した。
- 参考スコア(独自算出の注目度): 12.780544029261353
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In autonomous driving perception systems, 3D detection and tracking are the
two fundamental tasks. This paper delves deeper into this field, building upon
the Sparse4D framework. We introduce two auxiliary training tasks (Temporal
Instance Denoising and Quality Estimation) and propose decoupled attention to
make structural improvements, leading to significant enhancements in detection
performance. Additionally, we extend the detector into a tracker using a
straightforward approach that assigns instance ID during inference, further
highlighting the advantages of query-based algorithms. Extensive experiments
conducted on the nuScenes benchmark validate the effectiveness of the proposed
improvements. With ResNet50 as the backbone, we witnessed enhancements of
3.0\%, 2.2\%, and 7.6\% in mAP, NDS, and AMOTA, achieving 46.9\%, 56.1\%, and
49.0\%, respectively. Our best model achieved 71.9\% NDS and 67.7\% AMOTA on
the nuScenes test set. Code will be released at
\url{https://github.com/linxuewu/Sparse4D}.
- Abstract(参考訳): 自律運転認識システムでは、3D検出と追跡が2つの基本的な課題である。
本稿では,Sparse4Dフレームワークを基盤として,この分野を深く掘り下げる。
本稿では,2つの補助訓練タスク(テンポラル・インスタンス・デノジングと品質評価)を導入し,構造的改善を図り,検出性能の大幅な向上につながった。
さらに,推論中にインスタンスidを割り当て,クエリベースのアルゴリズムのメリットをさらに強調する,直接的なアプローチを用いて,検出器をトラッカに拡張する。
nuScenesベンチマークで実施された大規模な実験は、提案された改善の有効性を検証する。
resnet50をバックボーンとして,map,nds,amotaにおける3.0\%,2.2\%,7.6\%の強化を行い,それぞれ46.9\%,56.1\%,49.0\%となった。
NDS 71.9 % と AMOTA 67.7 % を nuScenes テストセットで達成した。
コードは \url{https://github.com/linxuewu/Sparse4D} でリリースされる。
関連論文リスト
- KAN-RCBEVDepth: A multi-modal fusion algorithm in object detection for autonomous driving [2.382388777981433]
本稿では, 自律走行における3次元物体検出の高速化を目的としたkan-RCBEVDepth法を提案する。
我々のユニークなBird’s Eye Viewベースのアプローチは、検出精度と効率を大幅に改善します。
コードはurlhttps://www.laitiamo.com/laitiamo/RCBEVDepth-KANでリリースされる。
論文 参考訳(メタデータ) (2024-08-04T16:54:49Z) - FocalFormer3D : Focusing on Hard Instance for 3D Object Detection [97.56185033488168]
3次元物体検出における偽陰性(False negatives, FN)は、自動運転において潜在的に危険な状況を引き起こす可能性がある。
本研究では,マルチステージ方式でtextitFN を識別する汎用パイプラインである Hard Instance Probing (HIP) を提案する。
この手法をFocalFormer3Dとしてインスタンス化する。
論文 参考訳(メタデータ) (2023-08-08T20:06:12Z) - V-DETR: DETR with Vertex Relative Position Encoding for 3D Object
Detection [73.37781484123536]
DETRフレームワークを用いた点雲のための高性能な3次元物体検出器を提案する。
限界に対処するため,新しい3次元相対位置(3DV-RPE)法を提案する。
挑戦的なScanNetV2ベンチマークで例外的な結果を示す。
論文 参考訳(メタデータ) (2023-08-08T17:14:14Z) - Window Normalization: Enhancing Point Cloud Understanding by Unifying
Inconsistent Point Densities [16.770190781915673]
ダウンサンプリングと特徴抽出は、3Dポイントクラウド理解に不可欠な手順である。
ウィンドウ正規化法は、異なる部分の点密度を統一するために利用される。
テクスチャや空間情報を含む多型特徴を得るためのグループワイド戦略を提案する。
論文 参考訳(メタデータ) (2022-12-05T14:09:07Z) - Minkowski Tracker: A Sparse Spatio-Temporal R-CNN for Joint Object
Detection and Tracking [53.64390261936975]
我々はオブジェクトの検出と追跡を共同で解決するスパース時間R-CNNであるMinkowski Trackerを提案する。
領域ベースCNN(R-CNN)に着想を得て,物体検出器R-CNNの第2段階として動きを追跡することを提案する。
大規模実験では,本手法の総合的な性能向上は4つの要因によることがわかった。
論文 参考訳(メタデータ) (2022-08-22T04:47:40Z) - Delving into the Pre-training Paradigm of Monocular 3D Object Detection [10.07932482761621]
単分子3次元物体検出(M3OD)のための事前学習パラダイムについて検討する。
本稿では,このベースラインをさらに改善するためのいくつかの戦略を提案する。主に,目標とする半深度推定,キーポイント認識2Dオブジェクト検出,クラスレベルの損失調整などである。
開発したすべての技術を組み合わせることで、得られた事前学習フレームワークは、KITTI-3DおよびnuScenesベンチマーク上でM3OD性能を大幅に向上させる事前学習されたバックボーンを生成する。
論文 参考訳(メタデータ) (2022-06-08T03:01:13Z) - 6D Pose Estimation with Combined Deep Learning and 3D Vision Techniques
for a Fast and Accurate Object Grasping [0.19686770963118383]
リアルタイムロボットの把握は高度な自律システムにとって最優先の目標である。
本稿では,ディープニューラルネットワークを用いた高速な2次元物体認識を組み合わせた2段階手法を提案する。
提案手法は、効率と精度の両方を必要とせず、リアルタイムアプリケーションで堅牢に動作する可能性がある。
論文 参考訳(メタデータ) (2021-11-11T15:36:55Z) - Is Pseudo-Lidar needed for Monocular 3D Object detection? [32.772699246216774]
我々は,擬似ライダー法のような深度事前学習の恩恵を受けることができるエンド・ツー・エンドの単分子3次元物体検出器DD3Dを提案する。
我々のアーキテクチャは、深度推定と3次元検出の効果的な情報伝達のために設計されており、ラベルなし事前学習データの量でスケールすることができる。
論文 参考訳(メタデータ) (2021-08-13T22:22:51Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - 3DIoUMatch: Leveraging IoU Prediction for Semi-Supervised 3D Object
Detection [76.42897462051067]
3DIoUMatchは屋内および屋外の場面両方に適当3D目的の検出のための新しい半監視された方法です。
教師と教師の相互学習の枠組みを活用し,ラベル付けされていない列車の情報を擬似ラベルの形で伝達する。
本手法は,ScanNetとSUN-RGBDのベンチマークにおける最先端の手法を,全てのラベル比で有意差で継続的に改善する。
論文 参考訳(メタデータ) (2020-12-08T11:06:26Z) - PointGroup: Dual-Set Point Grouping for 3D Instance Segmentation [111.7241018610573]
私たちは、インスタンスセグメンテーションのための新しいエンドツーエンドボトムアップアーキテクチャであるPointGroupを紹介します。
我々は2分岐ネットワークを設計し、ポイントの特徴を抽出し、セマンティックラベルとオフセットを予測し、各ポイントをそれぞれのインスタンスセントロイドに向けてシフトさせる。
クラスタリングコンポーネントは、元のおよびオフセットシフトされた点座標セットの両方を利用するために、その相補的な強度を利用する。
ScanNet v2 と S3DIS の2つの挑戦的データセットに対する広範な実験を行い、ScanNet v2 と S3DIS が最も高い性能を達成し、63.6% と 64.0% の2つを以前のベストが達成した54.9% と54.4% と比較した。
論文 参考訳(メタデータ) (2020-04-03T16:26:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。