論文の概要: Multi-Object Tracking with Hallucinated and Unlabeled Videos
- arxiv url: http://arxiv.org/abs/2108.08836v1
- Date: Thu, 19 Aug 2021 17:57:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-20 14:27:48.301685
- Title: Multi-Object Tracking with Hallucinated and Unlabeled Videos
- Title(参考訳): 幻覚とラベルなしビデオによるマルチオブジェクトトラッキング
- Authors: Daniel McKee, Bing Shuai, Andrew Berneshawi, Manchen Wang, Davide
Modolo, Svetlana Lazebnik, Joseph Tighe
- Abstract要約: アノテーションをトラッキングする代わりに、ズームイン/アウト動作変換を用いて、バウンディングボックスアノテーションでビデオを幻覚化する。
それから私たちは、幻覚したビデオデータに基づいてトレーニングされたトラッカーを使って、ラベルのない実際のビデオのプールにハードサンプルを掘り下げました。
弱教師付きトラッカーはMOT17およびTAO個人データセット上で最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 34.38275236770619
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we explore learning end-to-end deep neural trackers without
tracking annotations. This is important as large-scale training data is
essential for training deep neural trackers while tracking annotations are
expensive to acquire. In place of tracking annotations, we first hallucinate
videos from images with bounding box annotations using zoom-in/out motion
transformations to obtain free tracking labels. We add video simulation
augmentations to create a diverse tracking dataset, albeit with simple motion.
Next, to tackle harder tracking cases, we mine hard examples across an
unlabeled pool of real videos with a tracker trained on our hallucinated video
data. For hard example mining, we propose an optimization-based connecting
process to first identify and then rectify hard examples from the pool of
unlabeled videos. Finally, we train our tracker jointly on hallucinated data
and mined hard video examples. Our weakly supervised tracker achieves
state-of-the-art performance on the MOT17 and TAO-person datasets. On MOT17, we
further demonstrate that the combination of our self-generated data and the
existing manually-annotated data leads to additional improvements.
- Abstract(参考訳): 本稿では,アノテーションをトラッキングせずにエンドツーエンドのディープ・ニューラルトラッカーを学習する。
これは、大規模なトレーニングデータがディープニューラルネットワークトラッカのトレーニングに不可欠であり、アノテーションの追跡は取得にコストがかかるため重要である。
アノテーションをトラッキングする代わりに、ズームイン/アウトのモーション変換を用いてバウンディングボックスアノテーションで画像からビデオを幻覚し、自由なトラッキングラベルを得る。
簡単な動きながら、多様な追跡データセットを作成するために、ビデオシミュレーションの強化を加えます。
次に、より厳格な追跡ケースに取り組むために、私たちの幻覚的なビデオデータでトレーニングされたトラッカーを使って、ラベルのない実ビデオプールをまたいでハードサンプルを発掘します。
ハードサンプルマイニングでは、まず、ラベルなしビデオのプールからハードサンプルを識別し、修正する最適化ベースの接続プロセスを提案する。
最後に、ハロゲン化データに基づいてトラッカーを共同でトレーニングし、ハードビデオ例をマイニングする。
弱教師付きトラッカーはMOT17およびTAO個人データセット上で最先端のパフォーマンスを達成する。
mot17では、当社の自己生成データと既存の手動アノテーションデータの組み合わせがさらなる改善をもたらすことをさらに示しています。
関連論文リスト
- CoTracker3: Simpler and Better Point Tracking by Pseudo-Labelling Real Videos [63.90674869153876]
我々はCoTracker3を導入し、新しい追跡モデルと半教師付きトレーニングレシピを新たに導入する。
これにより、トレーニング中にアノテーションを使わずに実際のビデオが使えるようになり、既成の教師を使って擬似ラベルを生成することができる。
モデルはオンライン版とオフライン版で利用可能で、視界や無視された点を確実に追跡できる。
論文 参考訳(メタデータ) (2024-10-15T17:56:32Z) - Walker: Self-supervised Multiple Object Tracking by Walking on Temporal Appearance Graphs [117.67620297750685]
これは、疎結合なボックスアノテーションとトラッキングラベルのないビデオから学習する、初めてのセルフ教師付きトラッカーである。
Walker氏はMOT17、DanceTrack、BDD100Kで競争力を発揮する最初のセルフトラッカーである。
論文 参考訳(メタデータ) (2024-09-25T18:00:00Z) - Accelerated Video Annotation driven by Deep Detector and Tracker [12.640283469603355]
ビデオに物体の真実を注釈付けることは、ロボットの知覚と機械学習におけるいくつかの下流タスクにとって不可欠である。
動画中の各画像フレーム上の移動物体の注釈付きインスタンスの精度は極めて重要である。
本稿では,学習ベース検出器と学習ベーストラッカーを組み合わせたアノテーション手法を提案する。
論文 参考訳(メタデータ) (2023-02-19T15:16:05Z) - TDT: Teaching Detectors to Track without Fully Annotated Videos [2.8292841621378844]
検知と外観の埋め込みの両方を予測するワンステージトラッカーは、多くの注目を集めた。
提案した1段階のソリューションは,2段階のソリューションと品質が一致するが,3倍高速である。
論文 参考訳(メタデータ) (2022-05-11T15:56:17Z) - MOTSynth: How Can Synthetic Data Help Pedestrian Detection and Tracking? [36.094861549144426]
ビデオ歩行者検出とトラッキングのためのディープラーニング手法は、優れたパフォーマンスを達成するために大量のトレーニングデータを必要とする。
レンダリングゲームエンジンを用いたオブジェクト検出と追跡のための大規模で高度に多様な合成データセットMOT Synthを生成する。
実験の結果,MOT Synthは,歩行者検出,再識別,セグメンテーション,トラッキングといったタスクの実際のデータを置き換えるために利用できることがわかった。
論文 参考訳(メタデータ) (2021-08-21T14:25:25Z) - Learning to Track Instances without Video Annotations [85.9865889886669]
本稿では,ラベル付き画像データセットとラベルなしビデオシーケンスのみを用いたインスタンス追跡ネットワークを学習する,新しい半教師付きフレームワークを提案する。
画像のみを訓練しても,学習した特徴表現は出現の変動にロバストであることが判明した。
さらに、このモジュールを単一ステージのインスタンスセグメンテーションとポーズ推定フレームワークに統合します。
論文 参考訳(メタデータ) (2021-04-01T06:47:41Z) - Unsupervised Deep Representation Learning for Real-Time Tracking [137.69689503237893]
視覚追跡のための教師なし学習手法を提案する。
教師なし学習の動機は、ロバストなトラッカーが双方向トラッキングに有効であるべきだということです。
我々は,シームズ相関フィルタネットワーク上にフレームワークを構築し,教師なし学習を容易にするために,多フレーム検証方式とコスト感受性損失を提案する。
論文 参考訳(メタデータ) (2020-07-22T08:23:12Z) - Labelling unlabelled videos from scratch with multi-modal
self-supervision [82.60652426371936]
ビデオデータセットの教師なしラベリングは、強力な機能エンコーダから解放されない。
人間のアノテーションを使わずにビデオデータセットの擬似ラベリングを可能にする新しいクラスタリング手法を提案する。
広範囲な分析により、結果として得られたクラスタは、真理の人間ラベルと高いセマンティックオーバーラップがあることが示されている。
論文 参考訳(メタデータ) (2020-06-24T12:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。