論文の概要: TDT: Teaching Detectors to Track without Fully Annotated Videos
- arxiv url: http://arxiv.org/abs/2205.05583v1
- Date: Wed, 11 May 2022 15:56:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-12 19:33:20.670977
- Title: TDT: Teaching Detectors to Track without Fully Annotated Videos
- Title(参考訳): TDT:完全注釈付きビデオなしで検知器の追跡を指導する
- Authors: Shuzhi Yu, Guanhang Wu, Chunhui Gu, Mohammed E. Fathy
- Abstract要約: 検知と外観の埋め込みの両方を予測するワンステージトラッカーは、多くの注目を集めた。
提案した1段階のソリューションは,2段階のソリューションと品質が一致するが,3倍高速である。
- 参考スコア(独自算出の注目度): 2.8292841621378844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, one-stage trackers that use a joint model to predict both
detections and appearance embeddings in one forward pass received much
attention and achieved state-of-the-art results on the Multi-Object Tracking
(MOT) benchmarks. However, their success depends on the availability of videos
that are fully annotated with tracking data, which is expensive and hard to
obtain. This can limit the model generalization. In comparison, the two-stage
approach, which performs detection and embedding separately, is slower but
easier to train as their data are easier to annotate. We propose to combine the
best of the two worlds through a data distillation approach. Specifically, we
use a teacher embedder, trained on Re-ID datasets, to generate pseudo
appearance embedding labels for the detection datasets. Then, we use the
augmented dataset to train a detector that is also capable of regressing these
pseudo-embeddings in a fully-convolutional fashion. Our proposed one-stage
solution matches the two-stage counterpart in quality but is 3 times faster.
Even though the teacher embedder has not seen any tracking data during
training, our proposed tracker achieves competitive performance with some
popular trackers (e.g. JDE) trained with fully labeled tracking data.
- Abstract(参考訳): 近年,ジョイントモデルを用いて1回のフォワードパスにおける検出と外観の埋め込みの両方を予測するワンステージトラッカが注目され,マルチオブジェクトトラッキング(mot)ベンチマークで最先端の結果を得た。
しかし、彼らの成功は、追跡データに完全に注釈付けされたビデオが利用できることに依存しており、それは高価で入手が困難である。
これはモデル一般化を制限することができる。
比較として、別々に検出と埋め込みを行う2段階のアプローチは、データの注釈付けが容易であるため、より遅いが、トレーニングが容易である。
データ蒸留法による2つの世界のベストを組み合わせることを提案する。
具体的には、Re-IDデータセットに基づいて訓練された教師埋め込みを用いて、検出データセットの擬似外観埋め込みラベルを生成する。
次に、拡張データセットを使用して、これら擬似埋め込みを完全な畳み込み方式でレグレッションできる検出器を訓練する。
提案した1段階のソリューションは,2段階のソリューションと品質が一致するが,3倍高速である。
教師の組込み機はトレーニング中に追跡データを見ていないが,提案したトラッカーは,完全ラベル付き追跡データでトレーニングされた人気トラッカー(JDEなど)と競合する性能を発揮する。
関連論文リスト
- Unified Transformer Tracker for Object Tracking [58.65901124158068]
異なるシナリオにおけるトラッキング問題に1つのパラダイムで対処するために,UTT(Unified Transformer Tracker)を提案する。
SOT(Single Object Tracking)とMOT(Multiple Object Tracking)の両方を対象とするトラックトランスフォーマーを開発した。
論文 参考訳(メタデータ) (2022-03-29T01:38:49Z) - NoisyActions2M: A Multimedia Dataset for Video Understanding from Noisy
Labels [33.659146748289444]
約200万のビデオと関連するユーザ生成アノテーションやその他のメタ情報からなるベンチマークデータセットを作成します。
提案したデータセット上で事前トレーニングされたネットワークは、下流データセットにおけるビデオの破損やラベルノイズに対してどのように役立つかを示す。
論文 参考訳(メタデータ) (2021-10-13T16:12:18Z) - Learning to Track Objects from Unlabeled Videos [63.149201681380305]
本稿では,Unsupervised Single Object Tracker (USOT) をスクラッチから学習することを提案する。
教師なしトラッカーと教師なしトラッカーのギャップを狭めるために,3段階からなる効果的な教師なし学習手法を提案する。
実験の結果、未ラベルのビデオから得られたUSOTは、最先端の教師なしトラッカーよりも大きなマージンでうまく機能していることがわかった。
論文 参考訳(メタデータ) (2021-08-28T22:10:06Z) - MOTSynth: How Can Synthetic Data Help Pedestrian Detection and Tracking? [36.094861549144426]
ビデオ歩行者検出とトラッキングのためのディープラーニング手法は、優れたパフォーマンスを達成するために大量のトレーニングデータを必要とする。
レンダリングゲームエンジンを用いたオブジェクト検出と追跡のための大規模で高度に多様な合成データセットMOT Synthを生成する。
実験の結果,MOT Synthは,歩行者検出,再識別,セグメンテーション,トラッキングといったタスクの実際のデータを置き換えるために利用できることがわかった。
論文 参考訳(メタデータ) (2021-08-21T14:25:25Z) - Multi-Object Tracking with Hallucinated and Unlabeled Videos [34.38275236770619]
アノテーションをトラッキングする代わりに、ズームイン/アウト動作変換を用いて、バウンディングボックスアノテーションでビデオを幻覚化する。
それから私たちは、幻覚したビデオデータに基づいてトレーニングされたトラッカーを使って、ラベルのない実際のビデオのプールにハードサンプルを掘り下げました。
弱教師付きトラッカーはMOT17およびTAO個人データセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-08-19T17:57:29Z) - Video Annotation for Visual Tracking via Selection and Refinement [74.08109740917122]
ビデオシーケンスのバウンディングボックスアノテーションを容易にするための新しいフレームワークを提案する。
目標位置の時間的コヒーレンスを捉えることのできる時間的アセスメントネットワークを提案する。
また、選択したトラッキング結果をさらに強化するために、ビジュアルジオメトリ・リファインメント・ネットワークが設計されている。
論文 参考訳(メタデータ) (2021-08-09T05:56:47Z) - Learning to Track Instances without Video Annotations [85.9865889886669]
本稿では,ラベル付き画像データセットとラベルなしビデオシーケンスのみを用いたインスタンス追跡ネットワークを学習する,新しい半教師付きフレームワークを提案する。
画像のみを訓練しても,学習した特徴表現は出現の変動にロバストであることが判明した。
さらに、このモジュールを単一ステージのインスタンスセグメンテーションとポーズ推定フレームワークに統合します。
論文 参考訳(メタデータ) (2021-04-01T06:47:41Z) - Benchmarking Deep Trackers on Aerial Videos [5.414308305392762]
本論文では,4つの空中データセットの深層学習手法に基づく10のトラッカーを比較した。
我々は,検出による追跡,識別相関フィルタ,シャムネットワーク,強化学習など,さまざまなアプローチを用いた上位パフォーマンストラッカを選択する。
本研究では, 地上映像と比べ, 航空データセットではトラッカーの性能が著しく悪くなることが示唆された。
論文 参考訳(メタデータ) (2021-03-24T01:45:19Z) - DEFT: Detection Embeddings for Tracking [3.326320568999945]
我々は,DEFT と呼ばれる効率的な関節検出・追跡モデルを提案する。
提案手法は,外見に基づくオブジェクトマッチングネットワークと,下層のオブジェクト検出ネットワークとの協調学習に依存している。
DEFTは2Dオンライントラッキングリーダーボードのトップメソッドに匹敵する精度とスピードを持っている。
論文 参考訳(メタデータ) (2021-02-03T20:00:44Z) - Unsupervised Noisy Tracklet Person Re-identification [100.85530419892333]
本稿では,非照合トラックレットデータから識別的人物再識別モデルを訓練できる選択的トラックレット学習(STL)手法を提案する。
これにより、カメラビュー全体で人物の画像/トラックレットの真のマッチングペアを完全にラベル付けする面倒でコストのかかるプロセスが回避されます。
提案手法は生トラックレットの任意のノイズデータに対して特に頑健であるため,制約のない追跡データから識別モデル学習にスケーラブルである。
論文 参考訳(メタデータ) (2021-01-16T07:31:00Z) - Self-Supervised Person Detection in 2D Range Data using a Calibrated
Camera [83.31666463259849]
2次元LiDARに基づく人検出器のトレーニングラベル(擬似ラベル)を自動生成する手法を提案する。
擬似ラベルで訓練または微調整された自己監視検出器が,手動アノテーションを用いて訓練された検出器を上回っていることを示した。
私達の方法は付加的な分類の努力なしで配置の間に人の探知器を改善する有効な方法です。
論文 参考訳(メタデータ) (2020-12-16T12:10:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。