論文の概要: Time3D: End-to-End Joint Monocular 3D Object Detection and Tracking for
Autonomous Driving
- arxiv url: http://arxiv.org/abs/2205.14882v1
- Date: Mon, 30 May 2022 06:41:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 06:07:05.859922
- Title: Time3D: End-to-End Joint Monocular 3D Object Detection and Tracking for
Autonomous Driving
- Title(参考訳): Time3D: 自動走行のための一眼レフ物体検出と追跡
- Authors: Peixuan Li, Jieyu Jin
- Abstract要約: 本稿では,モノクローナルビデオのみからエンドツーエンドに3D検出と3D追跡を共同で行うことを提案する。
Time3Dは21.4%のAMOTA、13.6%のAMOTPをnuScenesの3D追跡ベンチマークで達成し、全競合を抜いた。
- 参考スコア(独自算出の注目度): 3.8073142980733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While separately leveraging monocular 3D object detection and 2D multi-object
tracking can be straightforwardly applied to sequence images in a
frame-by-frame fashion, stand-alone tracker cuts off the transmission of the
uncertainty from the 3D detector to tracking while cannot pass tracking error
differentials back to the 3D detector. In this work, we propose jointly
training 3D detection and 3D tracking from only monocular videos in an
end-to-end manner. The key component is a novel spatial-temporal information
flow module that aggregates geometric and appearance features to predict robust
similarity scores across all objects in current and past frames. Specifically,
we leverage the attention mechanism of the transformer, in which self-attention
aggregates the spatial information in a specific frame, and cross-attention
exploits relation and affinities of all objects in the temporal domain of
sequence frames. The affinities are then supervised to estimate the trajectory
and guide the flow of information between corresponding 3D objects. In
addition, we propose a temporal
-consistency loss that explicitly involves 3D target motion modeling into the
learning, making the 3D trajectory smooth in the world coordinate system.
Time3D achieves 21.4\% AMOTA, 13.6\% AMOTP on the nuScenes 3D tracking
benchmark, surpassing all published competitors, and running at 38 FPS, while
Time3D achieves 31.2\% mAP, 39.4\% NDS on the nuScenes 3D detection benchmark.
- Abstract(参考訳): フレーム単位でのシーケンス画像に、単眼で3D物体検出と2D多物追跡を別々に活用する一方、スタンドアローントラッカーは、3D検出器からの不確実性の伝達を遮断し、トラッキング誤差の差分を3D検出器に渡すことができない。
本研究では,モノクローナルビデオのみからエンドツーエンドに3D検出と3D追跡を共同で行うことを提案する。
鍵となるコンポーネントは、幾何学的特徴と外観的特徴を集約した新しい時空間情報フローモジュールであり、現在のフレームと過去の全てのオブジェクト間で堅牢な類似性スコアを予測する。
具体的には、自己注意が特定のフレーム内の空間情報を集約する変換器の注意機構を活用し、シーケンスフレームの時間領域における全てのオブジェクトの関係と親和性を利用する。
次にアフィニティを監督して軌道を推定し、対応する3dオブジェクト間の情報の流れを導く。
さらに,3次元目標運動モデリングを学習に用い,世界座標系における3次元軌跡の円滑化を図った時間的整合性損失を提案する。
Time3D は nuScenes 3D 検出ベンチマークで 21.4\% AMOTA, 13.6\% AMOTP を、21.2\% mAP, 39.4\% NDS を達成している。
関連論文リスト
- TAPVid-3D: A Benchmark for Tracking Any Point in 3D [63.060421798990845]
我々は,3Dにおける任意の点の追跡作業を評価するための新しいベンチマークTAPVid-3Dを導入する。
このベンチマークは、モノクロビデオから正確な3Dの動きと表面の変形を理解する能力を改善するためのガイドポストとして機能する。
論文 参考訳(メタデータ) (2024-07-08T13:28:47Z) - Delving into Motion-Aware Matching for Monocular 3D Object Tracking [81.68608983602581]
異なる時間軸に沿った物体の運動キューが3次元多物体追跡において重要であることが判明した。
3つの動き認識コンポーネントからなるフレームワークであるMoMA-M3Tを提案する。
我々はnuScenesとKITTIデータセットに関する広範な実験を行い、MoMA-M3Tが最先端の手法と競合する性能を発揮することを実証した。
論文 参考訳(メタデータ) (2023-08-22T17:53:58Z) - A Lightweight and Detector-free 3D Single Object Tracker on Point Clouds [50.54083964183614]
生のLiDARスキャンにおける物体の点雲は、通常スパースで不完全であるため、正確な目標固有検出を行うのは簡単ではない。
DMTは、複雑な3D検出器の使用を完全に除去する3Dトラッキングネットワークである。
論文 参考訳(メタデータ) (2022-03-08T17:49:07Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - 3D Visual Tracking Framework with Deep Learning for Asteroid Exploration [22.808962211830675]
本稿では,3次元追跡のための高精度かつリアルタイムな手法について検討する。
両眼ビデオシーケンス、深度マップ、様々な小惑星の点雲を含む、新しい大規模な3D小惑星追跡データセットが提示されている。
深層学習に基づく3DトラッキングフレームワークTrack3Dを提案する。このフレームワークは,2次元単分子トラッカーと,新しい軽量アモーダル軸整合バウンディングボックスネットワークであるA3BoxNetを備える。
論文 参考訳(メタデータ) (2021-11-21T04:14:45Z) - Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。
移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-12T15:30:02Z) - Relation3DMOT: Exploiting Deep Affinity for 3D Multi-Object Tracking
from View Aggregation [8.854112907350624]
3Dマルチオブジェクトトラッキングは、自律ナビゲーションにおいて重要な役割を果たす。
多くのアプローチでは、トラッキングのための2次元RGBシーケンス内のオブジェクトを検出するが、これは3次元空間内のオブジェクトをローカライズする際の信頼性の欠如である。
本稿では,隣接フレーム内の各オブジェクト間の相関をよりよく活用するために,RelationConvという新しい畳み込み演算を提案する。
論文 参考訳(メタデータ) (2020-11-25T16:14:40Z) - Tracking from Patterns: Learning Corresponding Patterns in Point Clouds
for 3D Object Tracking [34.40019455462043]
本稿では,時間点雲データから3次元オブジェクト対応を学習し,対応パターンから動き情報を推測する。
提案手法は,KITTIと大規模Nuscenesデータセットの双方において,既存の3次元追跡手法を超えている。
論文 参考訳(メタデータ) (2020-10-20T06:07:20Z) - Kinematic 3D Object Detection in Monocular Video [123.7119180923524]
運動運動を注意深く利用して3次元位置決めの精度を向上させるモノクロ映像を用いた3次元物体検出法を提案する。
我々は、KITTI自動運転データセット内のモノクロ3次元物体検出とバードアイビュータスクの最先端性能を達成する。
論文 参考訳(メタデータ) (2020-07-19T01:15:12Z) - DeepTracking-Net: 3D Tracking with Unsupervised Learning of Continuous
Flow [12.690471276907445]
本論文は3次元追跡の問題,すなわち時間変化の連続した3次元形状における密度の高い対応を見つけることを扱う。
本稿では、ディープニューラルネットワーク(DNN)を補助機能として利用するDeepTracking-Netという、教師なし3次元形状のフレームワークを提案する。
さらに,SynMotionsと呼ばれる新しい合成3Dデータを3D追跡・認識コミュニティに準備する。
論文 参考訳(メタデータ) (2020-06-24T16:20:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。