論文の概要: DepthMOT: Depth Cues Lead to a Strong Multi-Object Tracker
- arxiv url: http://arxiv.org/abs/2404.05518v1
- Date: Mon, 8 Apr 2024 13:39:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 14:15:19.831852
- Title: DepthMOT: Depth Cues Lead to a Strong Multi-Object Tracker
- Title(参考訳): DepthMOT:Depth Cuesが強力なマルチオブジェクトトラッカーに
- Authors: Jiapeng Wu, Yichen Liu,
- Abstract要約: 各オブジェクトを正確に区別することは、MOTアルゴリズムの基本的な目標である。
本稿では, (i) シーン深度マップのテクトitend-to-endの検出と推定, (ii) カメラのポーズ推定により不規則なカメラの動きを補正するtextitDepthMOTを提案する。
- 参考スコア(独自算出の注目度): 4.65004369765875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurately distinguishing each object is a fundamental goal of Multi-object tracking (MOT) algorithms. However, achieving this goal still remains challenging, primarily due to: (i) For crowded scenes with occluded objects, the high overlap of object bounding boxes leads to confusion among closely located objects. Nevertheless, humans naturally perceive the depth of elements in a scene when observing 2D videos. Inspired by this, even though the bounding boxes of objects are close on the camera plane, we can differentiate them in the depth dimension, thereby establishing a 3D perception of the objects. (ii) For videos with rapidly irregular camera motion, abrupt changes in object positions can result in ID switches. However, if the camera pose are known, we can compensate for the errors in linear motion models. In this paper, we propose \textit{DepthMOT}, which achieves: (i) detecting and estimating scene depth map \textit{end-to-end}, (ii) compensating the irregular camera motion by camera pose estimation. Extensive experiments demonstrate the superior performance of DepthMOT in VisDrone-MOT and UAVDT datasets. The code will be available at \url{https://github.com/JackWoo0831/DepthMOT}.
- Abstract(参考訳): 各オブジェクトを正確に区別することは、MOTアルゴリズムの基本的な目標である。
しかし、この目標を達成するのはまだ難しい。
(i)密集した物体が混在する場面では、物体境界箱の重なり合いが密接な物体間で混同される。
しかし、人間は自然に2Dビデオを観察する際にシーン内の要素の深さを知覚する。
このことから、被写体の境界箱がカメラ面に近接しているとしても、被写体の深度次元で区別することが可能となり、被写体の3次元認識が確立される。
(II) カメラの動きが急速に不規則なビデオの場合, 物体位置の急激な変化はIDスイッチを引き起こす可能性がある。
しかし、カメラのポーズが分かっていれば、線形運動モデルにおける誤差を補うことができる。
本稿では,次のことを達成した「textit{DepthMOT}」を提案する。
(i)シーン深度マップ \textit{end-to-end} を検出して推定する。
二 カメラポーズ推定により不規則なカメラの動きを補正すること。
大規模な実験は、VisDrone-MOTとUAVDTデータセットにおけるDepthMOTの優れた性能を示す。
コードは \url{https://github.com/JackWoo0831/DepthMOT} で入手できる。
関連論文リスト
- OPEN: Object-wise Position Embedding for Multi-view 3D Object Detection [102.0744303467713]
OPENと呼ばれる新しい多視点3Dオブジェクト検出器を提案する。
我々の主目的は、提案したオブジェクト指向位置埋め込みを通して、オブジェクトワイド情報をネットワークに効果的に注入することである。
OPENは、nuScenesテストベンチマークで64.4%のNDSと56.7%のmAPで、最先端の新たなパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-07-15T14:29:15Z) - Improving Distant 3D Object Detection Using 2D Box Supervision [97.80225758259147]
遠方の物体の欠損した深さを回復するフレームワークであるLR3Dを提案する。
我々のフレームワークは汎用的であり、3D検出手法を広く活用する可能性がある。
論文 参考訳(メタデータ) (2024-03-14T09:54:31Z) - DORT: Modeling Dynamic Objects in Recurrent for Multi-Camera 3D Object
Detection and Tracking [67.34803048690428]
本稿では、この問題を解決するためにRecurrenT(DORT)の動的オブジェクトをモデル化することを提案する。
DORTは、重い計算負担を軽減する動き推定のために、オブジェクトワイズローカルボリュームを抽出する。
フレキシブルで実用的で、ほとんどのカメラベースの3Dオブジェクト検出器に差し込むことができる。
論文 参考訳(メタデータ) (2023-03-29T12:33:55Z) - 3D Object Aided Self-Supervised Monocular Depth Estimation [5.579605877061333]
本研究では,モノクロ3次元物体検出による動的物体の動きに対処する新しい手法を提案する。
具体的には、まず画像中の3Dオブジェクトを検出し、検出されたオブジェクトのポーズと動的ピクセル間の対応性を構築する。
このようにして、各ピクセルの深さは有意義な幾何学モデルによって学習することができる。
論文 参考訳(メタデータ) (2022-12-04T08:52:33Z) - CrossDTR: Cross-view and Depth-guided Transformers for 3D Object
Detection [10.696619570924778]
そこで我々は,3次元物体検出のためのクロスビューおよび奥行き誘導変換器を提案する。
歩行者検出では既存のマルチカメラ手法を10%上回り,mAPとNDSの指標では約3%を上回りました。
論文 参考訳(メタデータ) (2022-09-27T16:23:12Z) - Monocular 3D Object Detection with Depth from Motion [74.29588921594853]
我々は、正確な物体深度推定と検出にカメラエゴモーションを利用する。
我々のフレームワークはDfM(Depth from Motion)と呼ばれ、2D画像の特徴を3D空間に持ち上げて3Dオブジェクトを検出する。
我々のフレームワークは、KITTIベンチマークにおいて最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-07-26T15:48:46Z) - Consistent Depth of Moving Objects in Video [52.72092264848864]
移動カメラで撮影した通常の映像から任意の移動物体を含む動的シーンの深さを推定する手法を提案する。
我々は、この目的を、深度予測CNNを入力ビデオ全体にわたって補助的なシーンフロー予測でタンデムで訓練する新しいテストタイムトレーニングフレームワークで定式化する。
我々は、さまざまな移動物体(ペット、人、車)とカメラの動きを含む様々な挑戦的なビデオに対して、正確かつ時間的に一貫性のある結果を示す。
論文 参考訳(メタデータ) (2021-08-02T20:53:18Z) - EagerMOT: 3D Multi-Object Tracking via Sensor Fusion [68.8204255655161]
マルチオブジェクトトラッキング(MOT)により、移動ロボットは周囲の物体を3次元空間と時間で位置づけすることで、良好な動作計画とナビゲーションを行うことができる。
既存の方法は、深度センサー(例えばLiDAR)を使用して3D空間のターゲットを検出し追跡するが、信号の間隔が限られているため、検出範囲は限られている。
我々は,両方のセンサモダリティから利用可能な物体を全て統合し,シーンのダイナミックスを適切に解釈する簡易なトラッキング定式化であるeagermotを提案する。
論文 参考訳(メタデータ) (2021-04-29T22:30:29Z) - Learning Object Depth from Camera Motion and Video Object Segmentation [43.81711115175958]
本稿では,カメラの動きを測定することによって,分割対象の深度を推定する学習の課題に対処する。
我々は、カメラとオブジェクト間の距離の変化に対してスケールされた人工的なオブジェクトセグメンテーションを作成し、そのネットワークは、セグメンテーションエラーがあっても、オブジェクトの深さを推定することを学ぶ。
ロボットカメラを用いて、YCBデータセットから物体を検知するためのアプローチと、運転中の障害物を見つけるための車両カメラとのアプローチを実証する。
論文 参考訳(メタデータ) (2020-07-11T03:50:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。