論文の概要: Multiple Object Tracking as ID Prediction
- arxiv url: http://arxiv.org/abs/2403.16848v1
- Date: Mon, 25 Mar 2024 15:09:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 20:54:11.368733
- Title: Multiple Object Tracking as ID Prediction
- Title(参考訳): ID予測としての複数物体追跡
- Authors: Ruopeng Gao, Yijun Zhang, Limin Wang,
- Abstract要約: マルチプルオブジェクトトラッキング(MOT)では、トラッキング・バイ・検出の手法が長い間テストされてきた。
シングルフレーム検出器を活用し、手作りのアルゴリズムとサロゲートタスクを通じてオブジェクト関連を後処理のステップとして扱う。
しかし、テクニックの性質は、トレーニングデータのエンドツーエンドの活用を妨げるため、ますます面倒で困難な手作業の修正につながる。
- 参考スコア(独自算出の注目度): 14.890192237433771
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In Multiple Object Tracking (MOT), tracking-by-detection methods have stood the test for a long time, which split the process into two parts according to the definition: object detection and association. They leverage robust single-frame detectors and treat object association as a post-processing step through hand-crafted heuristic algorithms and surrogate tasks. However, the nature of heuristic techniques prevents end-to-end exploitation of training data, leading to increasingly cumbersome and challenging manual modification while facing complicated or novel scenarios. In this paper, we regard this object association task as an End-to-End in-context ID prediction problem and propose a streamlined baseline called MOTIP. Specifically, we form the target embeddings into historical trajectory information while considering the corresponding IDs as in-context prompts, then directly predict the ID labels for the objects in the current frame. Thanks to this end-to-end process, MOTIP can learn tracking capabilities straight from training data, freeing itself from burdensome hand-crafted algorithms. Without bells and whistles, our method achieves impressive state-of-the-art performance in complex scenarios like DanceTrack and SportsMOT, and it performs competitively with other transformer-based methods on MOT17. We believe that MOTIP demonstrates remarkable potential and can serve as a starting point for future research. The code is available at https://github.com/MCG-NJU/MOTIP.
- Abstract(参考訳): マルチプルオブジェクト追跡(MOT)では、トラッキング・バイ・検出手法が長い間テストに立脚しており、オブジェクトの検出と関連性の定義に従ってプロセスを2つの部分に分割している。
堅牢な単一フレーム検出器を活用し、手作りのヒューリスティックアルゴリズムとサロゲートタスクを通じてオブジェクトアソシエーションを後処理のステップとして扱う。
しかし、ヒューリスティックなテクニックの性質は、トレーニングデータのエンドツーエンドの活用を妨げ、複雑なシナリオや斬新なシナリオに直面しながら、ますます面倒で困難な手作業の修正につながる。
本稿では,このオブジェクト関連タスクをコンテキスト内ID予測問題とみなし,MOTIPと呼ばれるベースラインの合理化を提案する。
具体的には、対応するIDをインコンテキストプロンプトとして考慮し、対象を過去の軌跡情報に埋め込み、次に、現在のフレーム内のオブジェクトのIDラベルを直接予測する。
このエンドツーエンドのプロセスのおかげで、MOTIPはトレーニングデータから直接トラッキング機能を学び、面倒な手作りのアルゴリズムから解放される。
ベルや笛を使わずに,DanceTrackやSportsMOTのような複雑なシナリオで最先端のパフォーマンスを実現し,MOT17の他のトランスフォーマーベース手法と競合する。
我々はMOTIPが目覚ましい可能性を示し、将来の研究の出発点となると信じている。
コードはhttps://github.com/MCG-NJU/MOTIPで入手できる。
関連論文リスト
- VOVTrack: Exploring the Potentiality in Videos for Open-Vocabulary Object Tracking [61.56592503861093]
オープンボキャブラリオブジェクト検出(OVD)とマルチオブジェクトトラッキング(MOT)の複雑さを両立させる。
OVMOT の既存のアプローチは、OVD と MOT の方法論を別個のモジュールとして統合することが多く、主に画像中心のレンズによる問題に焦点を当てている。
VOVTrackは、MOTとビデオ中心トレーニングに関連するオブジェクト状態を統合する新しい手法であり、ビデオオブジェクト追跡の観点からこの問題に対処する。
論文 参考訳(メタデータ) (2024-10-11T05:01:49Z) - Lost and Found: Overcoming Detector Failures in Online Multi-Object Tracking [15.533652456081374]
マルチオブジェクト追跡(MOT)は、時間とともに複数のオブジェクトのアイデンティティと位置を正確に推定する。
現代の検出器は、あるフレーム内のいくつかのオブジェクトを見逃すことがあるため、トラッカーは早めに追跡をやめる。
オンラインTbDシステムと互換性のある汎用フレームワークであるBUSCAを提案する。
論文 参考訳(メタデータ) (2024-07-14T10:45:12Z) - SparseTrack: Multi-Object Tracking by Performing Scene Decomposition
based on Pseudo-Depth [84.64121608109087]
2次元画像から目標の相対的な深さを求めるための擬似深度推定法を提案する。
次に,得られた深度情報を用いて,高密度なターゲットセットを複数のスパースなターゲットサブセットに変換するディープカスケードマッチング(DCM)アルゴリズムを設計する。
擬似深度法とDCM戦略をデータアソシエーションプロセスに統合することにより、SparseTrackと呼ばれる新しいトラッカーを提案する。
論文 参考訳(メタデータ) (2023-06-08T14:36:10Z) - Bridging the Gap Between End-to-end and Non-End-to-end Multi-Object
Tracking [27.74953961900086]
既存のエンドツーエンドのマルチオブジェクト追跡(e2e-MOT)手法は、非エンドツーエンドのトラッキング・バイ・検出手法を超えていない。
本稿では,e2e-MOT をシャドウ概念を用いた新しいラベル割り当てにより,簡便かつ効果的な方法である Co-MOT を提案する。
論文 参考訳(メタデータ) (2023-05-22T05:18:34Z) - End-to-end Tracking with a Multi-query Transformer [96.13468602635082]
マルチオブジェクトトラッキング(MOT)は、時間とともにシーン内のオブジェクトの位置、外観、アイデンティティを同時に推論する必要がある課題である。
本研究の目的は、トラッキング・バイ・ディテクト・アプローチを超えて、未知のオブジェクト・クラスに対してもよく機能するクラスに依存しないトラッキングへと移行することである。
論文 参考訳(メタデータ) (2022-10-26T10:19:37Z) - Transformer-based assignment decision network for multiple object
tracking [0.0]
本稿では,データアソシエーションに取り組むトランスフォーマーベースのアサインメント決定ネットワーク(TADN)について,推論中に明示的な最適化を必要とせずに紹介する。
提案手法は,トラッカーとしての単純な性質にもかかわらず,ほとんどの評価指標において最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-08-06T19:47:32Z) - Unified Transformer Tracker for Object Tracking [58.65901124158068]
異なるシナリオにおけるトラッキング問題に1つのパラダイムで対処するために,UTT(Unified Transformer Tracker)を提案する。
SOT(Single Object Tracking)とMOT(Multiple Object Tracking)の両方を対象とするトラックトランスフォーマーを開発した。
論文 参考訳(メタデータ) (2022-03-29T01:38:49Z) - Distractor-Aware Fast Tracking via Dynamic Convolutions and MOT
Philosophy [63.91005999481061]
実用的長期トラッカーは、典型的には3つの重要な特性を含む。
効率的なモデル設計、効果的なグローバル再検出戦略、堅牢な気晴らし認識メカニズム。
動的畳み込み (d-convs) と多重オブジェクト追跡 (MOT) の哲学を用いて, 注意をそらした高速トラッキングを実現するための2タスクトラッキングフレームワーク(DMTrack)を提案する。
我々のトラッカーはLaSOT, OxUvA, TLP, VOT2018LT, VOT 2019LTベンチマークの最先端性能を実現し, リアルタイム3倍高速に動作させる。
論文 参考訳(メタデータ) (2021-04-25T00:59:53Z) - Learning to Track with Object Permanence [61.36492084090744]
共同物体の検出と追跡のためのエンドツーエンドのトレーニング可能なアプローチを紹介します。
私たちのモデルは、合成データと実データで共同トレーニングされ、KITTIおよびMOT17データセットの最先端を上回ります。
論文 参考訳(メタデータ) (2021-03-26T04:43:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。