論文の概要: DORT: Modeling Dynamic Objects in Recurrent for Multi-Camera 3D Object
Detection and Tracking
- arxiv url: http://arxiv.org/abs/2303.16628v2
- Date: Wed, 19 Apr 2023 01:58:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-20 16:53:01.955726
- Title: DORT: Modeling Dynamic Objects in Recurrent for Multi-Camera 3D Object
Detection and Tracking
- Title(参考訳): DORT:マルチカメラ3次元物体検出・追跡のためのリカレント動的物体モデリング
- Authors: Qing Lian, Tai Wang, Dahua Lin, Jiangmiao Pang
- Abstract要約: 本稿では、この問題を解決するためにRecurrenT(DORT)の動的オブジェクトをモデル化することを提案する。
DORTは、重い計算負担を軽減する動き推定のために、オブジェクトワイズローカルボリュームを抽出する。
フレキシブルで実用的で、ほとんどのカメラベースの3Dオブジェクト検出器に差し込むことができる。
- 参考スコア(独自算出の注目度): 67.34803048690428
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent multi-camera 3D object detectors usually leverage temporal information
to construct multi-view stereo that alleviates the ill-posed depth estimation.
However, they typically assume all the objects are static and directly
aggregate features across frames. This work begins with a theoretical and
empirical analysis to reveal that ignoring the motion of moving objects can
result in serious localization bias. Therefore, we propose to model Dynamic
Objects in RecurrenT (DORT) to tackle this problem. In contrast to previous
global Bird-Eye-View (BEV) methods, DORT extracts object-wise local volumes for
motion estimation that also alleviates the heavy computational burden. By
iteratively refining the estimated object motion and location, the preceding
features can be precisely aggregated to the current frame to mitigate the
aforementioned adverse effects. The simple framework has two significant
appealing properties. It is flexible and practical that can be plugged into
most camera-based 3D object detectors. As there are predictions of object
motion in the loop, it can easily track objects across frames according to
their nearest center distances. Without bells and whistles, DORT outperforms
all the previous methods on the nuScenes detection and tracking benchmarks with
62.5\% NDS and 57.6\% AMOTA, respectively. The source code will be released.
- Abstract(参考訳): 最近のマルチカメラ3Dオブジェクト検出器は通常、時間的情報を利用して、不適切な深さ推定を緩和する多視点ステレオを構築する。
しかし、通常は全てのオブジェクトが静的であり、フレーム間で直接集約されていると仮定する。
この研究は、運動物体の運動を無視した理論的および経験的な分析から始まり、深刻な局所化バイアスをもたらす。
そこで本稿では,RecurrenT (DORT) における動的オブジェクトをモデル化してこの問題に対処する。
従来のグローバルなBird-Eye-View (BEV) 法とは対照的に,DORT はオブジェクトワイドな局所ボリュームを抽出し,計算負荷を軽減する。
推定対象運動と位置を反復的に精製することにより、上記の悪影響を軽減するために、上記特徴を電流フレームに正確に集約することができる。
simple frameworkには2つの大きな魅力がある。
フレキシブルで実用的で、ほとんどのカメラベースの3dオブジェクト検出器に接続できる。
ループ内に物体の動きの予測があるため、最寄りの中心距離に応じてフレームを横切る物体を容易に追跡することができる。
ベルとホイッスルがなければ、DORTは、それぞれ 62.5\% NDS と 57.6\% AMOTA の nuScenes 検出および追跡ベンチマークにおいて、すべての従来の手法より優れている。
ソースコードはリリースされます。
関連論文リスト
- Delving into Motion-Aware Matching for Monocular 3D Object Tracking [81.68608983602581]
異なる時間軸に沿った物体の運動キューが3次元多物体追跡において重要であることが判明した。
3つの動き認識コンポーネントからなるフレームワークであるMoMA-M3Tを提案する。
我々はnuScenesとKITTIデータセットに関する広範な実験を行い、MoMA-M3Tが最先端の手法と競合する性能を発揮することを実証した。
論文 参考訳(メタデータ) (2023-08-22T17:53:58Z) - BEVStereo: Enhancing Depth Estimation in Multi-view 3D Object Detection
with Dynamic Temporal Stereo [15.479670314689418]
本稿では,マッチング候補のスケールを動的に選択するための効果的な時間ステレオ手法を提案する。
我々は、より価値のある候補を更新するための反復アルゴリズムを設計し、移動可能な候補に適応する。
BEVStereoは、nuScenesデータセットのカメラのみのトラックで、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2022-09-21T10:21:25Z) - TwistSLAM++: Fusing multiple modalities for accurate dynamic semantic
SLAM [0.0]
TwistSLAM++は、ステレオ画像とLiDAR情報を融合するセマンティックでダイナミックなSLAMシステムである。
従来のベンチマークでは,マルチモーダル情報に基づく融合手法によりオブジェクト追跡の精度が向上していることが示されている。
論文 参考訳(メタデータ) (2022-09-16T12:28:21Z) - Monocular 3D Object Detection with Depth from Motion [74.29588921594853]
我々は、正確な物体深度推定と検出にカメラエゴモーションを利用する。
我々のフレームワークはDfM(Depth from Motion)と呼ばれ、2D画像の特徴を3D空間に持ち上げて3Dオブジェクトを検出する。
我々のフレームワークは、KITTIベンチマークにおいて最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-07-26T15:48:46Z) - Objects are Different: Flexible Monocular 3D Object Detection [87.82253067302561]
そこで本研究では,乱れたオブジェクトを明示的に分離し,オブジェクト深度推定のための複数のアプローチを適応的に組み合わせたモノクル3次元オブジェクト検出のためのフレキシブルなフレームワークを提案する。
実験の結果,本手法はkittiベンチマークテストセットにおいて,中等度レベルが27%,硬度が30%と,最先端法を27%上回った。
論文 参考訳(メタデータ) (2021-04-06T07:01:28Z) - Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。
移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-12T15:30:02Z) - Detecting Invisible People [58.49425715635312]
我々は,追跡ベンチマークを再利用し,目立たない物体を検出するための新しい指標を提案する。
私たちは、現在の検出および追跡システムがこのタスクで劇的に悪化することを実証します。
第2に,最先端の単眼深度推定ネットワークによる観測結果を用いて,3次元で明示的に推論する動的モデルを構築した。
論文 参考訳(メタデータ) (2020-12-15T16:54:45Z) - e-TLD: Event-based Framework for Dynamic Object Tracking [23.026432675020683]
本稿では,一般的な追跡条件下での移動イベントカメラを用いた長期オブジェクト追跡フレームワークを提案する。
このフレームワークは、オンライン学習を伴うオブジェクトの識別表現を使用し、ビューのフィールドに戻るとオブジェクトを検出し、追跡する。
論文 参考訳(メタデータ) (2020-09-02T07:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。