論文の概要: TDT: Teaching Detectors to Track without Fully Annotated Videos
- arxiv url: http://arxiv.org/abs/2205.05583v1
- Date: Wed, 11 May 2022 15:56:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-12 19:33:20.670977
- Title: TDT: Teaching Detectors to Track without Fully Annotated Videos
- Title(参考訳): TDT:完全注釈付きビデオなしで検知器の追跡を指導する
- Authors: Shuzhi Yu, Guanhang Wu, Chunhui Gu, Mohammed E. Fathy
- Abstract要約: 検知と外観の埋め込みの両方を予測するワンステージトラッカーは、多くの注目を集めた。
提案した1段階のソリューションは,2段階のソリューションと品質が一致するが,3倍高速である。
- 参考スコア(独自算出の注目度): 2.8292841621378844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, one-stage trackers that use a joint model to predict both
detections and appearance embeddings in one forward pass received much
attention and achieved state-of-the-art results on the Multi-Object Tracking
(MOT) benchmarks. However, their success depends on the availability of videos
that are fully annotated with tracking data, which is expensive and hard to
obtain. This can limit the model generalization. In comparison, the two-stage
approach, which performs detection and embedding separately, is slower but
easier to train as their data are easier to annotate. We propose to combine the
best of the two worlds through a data distillation approach. Specifically, we
use a teacher embedder, trained on Re-ID datasets, to generate pseudo
appearance embedding labels for the detection datasets. Then, we use the
augmented dataset to train a detector that is also capable of regressing these
pseudo-embeddings in a fully-convolutional fashion. Our proposed one-stage
solution matches the two-stage counterpart in quality but is 3 times faster.
Even though the teacher embedder has not seen any tracking data during
training, our proposed tracker achieves competitive performance with some
popular trackers (e.g. JDE) trained with fully labeled tracking data.
- Abstract(参考訳): 近年,ジョイントモデルを用いて1回のフォワードパスにおける検出と外観の埋め込みの両方を予測するワンステージトラッカが注目され,マルチオブジェクトトラッキング(mot)ベンチマークで最先端の結果を得た。
しかし、彼らの成功は、追跡データに完全に注釈付けされたビデオが利用できることに依存しており、それは高価で入手が困難である。
これはモデル一般化を制限することができる。
比較として、別々に検出と埋め込みを行う2段階のアプローチは、データの注釈付けが容易であるため、より遅いが、トレーニングが容易である。
データ蒸留法による2つの世界のベストを組み合わせることを提案する。
具体的には、Re-IDデータセットに基づいて訓練された教師埋め込みを用いて、検出データセットの擬似外観埋め込みラベルを生成する。
次に、拡張データセットを使用して、これら擬似埋め込みを完全な畳み込み方式でレグレッションできる検出器を訓練する。
提案した1段階のソリューションは,2段階のソリューションと品質が一致するが,3倍高速である。
教師の組込み機はトレーニング中に追跡データを見ていないが,提案したトラッカーは,完全ラベル付き追跡データでトレーニングされた人気トラッカー(JDEなど)と競合する性能を発揮する。
関連論文リスト
- Multi-object Tracking by Detection and Query: an efficient end-to-end manner [23.926668750263488]
従来の検出によるトラッキングと、クエリによる新たなトラッキングだ。
本稿では,学習可能なアソシエータによって達成されるトラッキング・バイ・検出・クエリーのパラダイムを提案する。
トラッキング・バイ・クエリーモデルと比較すると、LAIDは特に訓練効率の高い競合追跡精度を達成している。
論文 参考訳(メタデータ) (2024-11-09T14:38:08Z) - CoTracker3: Simpler and Better Point Tracking by Pseudo-Labelling Real Videos [63.90674869153876]
我々はCoTracker3を導入し、新しい追跡モデルと半教師付きトレーニングレシピを新たに導入する。
これにより、トレーニング中にアノテーションを使わずに実際のビデオが使えるようになり、既成の教師を使って擬似ラベルを生成することができる。
モデルはオンライン版とオフライン版で利用可能で、視界や無視された点を確実に追跡できる。
論文 参考訳(メタデータ) (2024-10-15T17:56:32Z) - Temporal Correlation Meets Embedding: Towards a 2nd Generation of JDE-based Real-Time Multi-Object Tracking [52.04679257903805]
共同検出・埋め込み(JDE)トラッカーは多目的追跡(MOT)タスクにおいて優れた性能を示した。
TCBTrackという名前のトラッカーは、複数の公開ベンチマークで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-07-19T07:48:45Z) - Bridging the Gap Between End-to-end and Non-End-to-end Multi-Object
Tracking [27.74953961900086]
既存のエンドツーエンドのマルチオブジェクト追跡(e2e-MOT)手法は、非エンドツーエンドのトラッキング・バイ・検出手法を超えていない。
本稿では,e2e-MOT をシャドウ概念を用いた新しいラベル割り当てにより,簡便かつ効果的な方法である Co-MOT を提案する。
論文 参考訳(メタデータ) (2023-05-22T05:18:34Z) - Unifying Tracking and Image-Video Object Detection [54.91658924277527]
TrIVD (Tracking and Image-Video Detection) は、画像OD、ビデオOD、MOTを1つのエンドツーエンドモデルに統合する最初のフレームワークである。
カテゴリラベルの相違やセマンティックな重複に対処するため、TrIVDは対象カテゴリに対する検出/追跡を基礎と理由として定式化している。
論文 参考訳(メタデータ) (2022-11-20T20:30:28Z) - Tracking Every Thing in the Wild [61.917043381836656]
我々は,新しい測定基準であるTrack Every Thing Accuracy(TETA)を導入し,測定結果を3つのサブファクター(ローカライゼーション,アソシエーション,分類)に分割する。
実験の結果、TETAはトラッカーをより包括的に評価し、TETerはBDD100KとTAOに挑戦する大規模データセットを大幅に改善することがわかった。
論文 参考訳(メタデータ) (2022-07-26T15:37:19Z) - Cannot See the Forest for the Trees: Aggregating Multiple Viewpoints to
Better Classify Objects in Videos [36.28269135795851]
本稿では,トラックレットに含まれる複数の視点から情報を集約することで,トラックレットの分類精度を向上させる集合分類器を提案する。
ResNet-101上のQDTrackにメソッドをアタッチするだけで、TAOの検証とテストセットで19.9%と15.7%のTrackAP_50という新しい最先端を実現できます。
論文 参考訳(メタデータ) (2022-06-05T07:51:58Z) - Unified Transformer Tracker for Object Tracking [58.65901124158068]
異なるシナリオにおけるトラッキング問題に1つのパラダイムで対処するために,UTT(Unified Transformer Tracker)を提案する。
SOT(Single Object Tracking)とMOT(Multiple Object Tracking)の両方を対象とするトラックトランスフォーマーを開発した。
論文 参考訳(メタデータ) (2022-03-29T01:38:49Z) - Benchmarking Deep Trackers on Aerial Videos [5.414308305392762]
本論文では,4つの空中データセットの深層学習手法に基づく10のトラッカーを比較した。
我々は,検出による追跡,識別相関フィルタ,シャムネットワーク,強化学習など,さまざまなアプローチを用いた上位パフォーマンストラッカを選択する。
本研究では, 地上映像と比べ, 航空データセットではトラッカーの性能が著しく悪くなることが示唆された。
論文 参考訳(メタデータ) (2021-03-24T01:45:19Z) - DEFT: Detection Embeddings for Tracking [3.326320568999945]
我々は,DEFT と呼ばれる効率的な関節検出・追跡モデルを提案する。
提案手法は,外見に基づくオブジェクトマッチングネットワークと,下層のオブジェクト検出ネットワークとの協調学習に依存している。
DEFTは2Dオンライントラッキングリーダーボードのトップメソッドに匹敵する精度とスピードを持っている。
論文 参考訳(メタデータ) (2021-02-03T20:00:44Z) - Self-Supervised Person Detection in 2D Range Data using a Calibrated
Camera [83.31666463259849]
2次元LiDARに基づく人検出器のトレーニングラベル(擬似ラベル)を自動生成する手法を提案する。
擬似ラベルで訓練または微調整された自己監視検出器が,手動アノテーションを用いて訓練された検出器を上回っていることを示した。
私達の方法は付加的な分類の努力なしで配置の間に人の探知器を改善する有効な方法です。
論文 参考訳(メタデータ) (2020-12-16T12:10:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。