論文の概要: Predicting the Best of N Visual Trackers
- arxiv url: http://arxiv.org/abs/2407.15707v1
- Date: Mon, 22 Jul 2024 15:17:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 14:30:36.486506
- Title: Predicting the Best of N Visual Trackers
- Title(参考訳): Nビジュアルトラッカーのベストを予言する
- Authors: Basit Alawode, Sajid Javed, Arif Mahmood, Jiri Matas,
- Abstract要約: すべてのトラッキング属性とデータセットの中で最高のパフォーマーは、シングルトラッカーが依然として存在しない。
このギャップを埋めるために、BofNメタトラッカーと呼ばれる"Nトラッカーのベスト"を予測する。
また、フレームレベルのBofNメタトラッカーを導入し、定期的に時間間隔で最高のパフォーマーを予測する。
- 参考スコア(独自算出の注目度): 34.93745058337489
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We observe that the performance of SOTA visual trackers surprisingly strongly varies across different video attributes and datasets. No single tracker remains the best performer across all tracking attributes and datasets. To bridge this gap, for a given video sequence, we predict the "Best of the N Trackers", called the BofN meta-tracker. At its core, a Tracking Performance Prediction Network (TP2N) selects a predicted best performing visual tracker for the given video sequence using only a few initial frames. We also introduce a frame-level BofN meta-tracker which keeps predicting best performer after regular temporal intervals. The TP2N is based on self-supervised learning architectures MocoV2, SwAv, BT, and DINO; experiments show that the DINO with ViT-S as a backbone performs the best. The video-level BofN meta-tracker outperforms, by a large margin, existing SOTA trackers on nine standard benchmarks - LaSOT, TrackingNet, GOT-10K, VOT2019, VOT2021, VOT2022, UAV123, OTB100, and WebUAV-3M. Further improvement is achieved by the frame-level BofN meta-tracker effectively handling variations in the tracking scenarios within long sequences. For instance, on GOT-10k, BofN meta-tracker average overlap is 88.7% and 91.1% with video and frame-level settings respectively. The best performing tracker, RTS, achieves 85.20% AO. On VOT2022, BofN expected average overlap is 67.88% and 70.98% with video and frame level settings, compared to the best performing ARTrack, 64.12%. This work also presents an extensive evaluation of competitive tracking methods on all commonly used benchmarks, following their protocols. The code, the trained models, and the results will soon be made publicly available on https://github.com/BasitAlawode/Best_of_N_Trackers.
- Abstract(参考訳): 我々は,SOTA視覚トラッカーの性能が動画属性やデータセットによって驚くほど異なることを観察した。
すべてのトラッキング属性とデータセットの中で最高のパフォーマーは、シングルトラッカーが依然として存在しない。
このギャップを埋めるために、与えられたビデオシーケンスに対して、BofNメタトラッカーと呼ばれる"Nトラッカーのベスト"を予測する。
その中心となる追跡性能予測ネットワーク(TP2N)は、いくつかの初期フレームのみを使用して、所定のビデオシーケンスに対して予測された最高の視覚的トラッカーを選択する。
また、フレームレベルのBofNメタトラッカーを導入し、定期的に時間間隔で最高のパフォーマーを予測する。
TP2Nは、MocoV2、SwAv、BT、DINOの自己教師型学習アーキテクチャに基づいている。
ビデオレベルのBofNメタトラッカーは、LaSOT, TrackingNet, GOT-10K, VOT2019, VOT2021, VOT2022, UAV123, OTB100, WebUAV-3Mの9つの標準ベンチマークにおいて、既存のSOTAトラッカーよりも優れていた。
さらに、フレームレベルのBofNメタトラッカーにより、長いシーケンス内のトラッキングシナリオの変動を効果的に処理することで、さらなる改善が達成される。
例えば、GOT-10kでは、BofNのメタトラッカーの平均オーバーラップは88.7%と91.1%である。
最高のパフォーマンストラッカーであるRTSは85.20%のAOを達成した。
VOT2022では、BofNの平均オーバーラップは67.88%、ビデオとフレームのレベル設定では70.98%であり、ARTrackの最高パフォーマンスは64.12%であった。
この研究は、プロトコルに従って、一般的に使用されるすべてのベンチマーク上での競合追跡手法の広範な評価も提示する。
コード、トレーニングされたモデル、結果は、間もなくhttps://github.com/BasitAlawode/Best_of_N_Trackersで公開される。
関連論文リスト
- LiteTrack: Layer Pruning with Asynchronous Feature Extraction for
Lightweight and Efficient Visual Tracking [4.179339279095506]
LiteTrackは、様々なデバイスにわたる高速操作に最適化された効率的なトランスフォーマーベースのトラッキングモデルである。
他の軽量トラッカーよりも精度と効率のトレードオフが良好である。
LiteTrack-B9はGOT-10kで72.2%AO、TrackingNetで82.4%AUC、NVIDIA 2080Ti GPUで171fpsで動作する。
論文 参考訳(メタデータ) (2023-09-17T12:01:03Z) - CoTracker: It is Better to Track Together [74.84109704301127]
CoTrackerは、フレーム内の高密度な点をビデオシーケンスで共同で追跡する。
その結果,関節トラッキングの精度は有意に向上し,ロバスト性も向上した。
CoTrackerはショートウィンドウで慎重に動作しますが、長いビデオシーケンスでウィンドウをアンロールすることでトレーニングを行います。
論文 参考訳(メタデータ) (2023-07-14T21:13:04Z) - VariabilityTrack:Multi-Object Tracking with Variable Speed Object
Movement [1.6385815610837167]
マルチオブジェクトトラッキング(MOT)は、ビデオ内のオブジェクトのバウンディングボックスとIDを推定することを目的としている。
環境フィードバックに基づく可変速度カルマンフィルタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-12T12:39:41Z) - ByteTrack: Multi-Object Tracking by Associating Every Detection Box [51.93588012109943]
マルチオブジェクトトラッキング(MOT)は、ビデオ内のオブジェクトのバウンディングボックスとIDを推定することを目的としている。
ほとんどの方法は、スコアがしきい値よりも高い検出ボックスを連想させることでアイデンティティを得る。
本稿では,BYTEと呼ばれるシンプルで効果的で汎用的なアソシエーション手法を提案する。
論文 参考訳(メタデータ) (2021-10-13T17:01:26Z) - STMTrack: Template-free Visual Tracking with Space-time Memory Networks [42.06375415765325]
テンプレート更新機構を持つ既存のトラッカーは、競争性能を達成するために、時間を要する数値最適化と複雑な手設計戦略に依存している。
本稿では,ターゲットに関する歴史的情報を十分に活用することのできる,時空メモリネットワーク上に構築した新しいトラッキングフレームワークを提案する。
具体的には、ターゲットの履歴情報を記憶して、トラッカーを現在のフレーム内の最も情報性の高い領域に集中させる新しい記憶機構を導入する。
論文 参考訳(メタデータ) (2021-04-01T08:10:56Z) - LaSOT: A High-quality Large-scale Single Object Tracking Benchmark [67.96196486540497]
高品質な大規模オブジェクト追跡ベンチマークであるLaSOTを提案する。
LaSOTには85のオブジェクトクラスがあり、合計で1,550のフレームが387万フレーム以上ある。
それぞれのビデオフレームは、慎重に手動でバウンディングボックスでアノテートされます。これにより、LaSOTは、私たちの知る限り、最も高密度にアノテートされたトラッキングベンチマークになります。
論文 参考訳(メタデータ) (2020-09-08T00:31:56Z) - Tracking Objects as Points [83.9217787335878]
同時に検出と追跡を同時に行うアルゴリズムは,最先端技術よりもシンプルで,高速で,高精度である。
トラッカーであるCenterTrackは、前のフレームから一対のイメージと検出に検出モデルを適用します。
CenterTrackはシンプルで、オンライン(未来を覗くことはない)で、リアルタイムだ。
論文 参考訳(メタデータ) (2020-04-02T17:58:40Z) - High-Performance Long-Term Tracking with Meta-Updater [75.80564183653274]
短期的追跡よりも実用的に近いため、長期的視覚追跡が注目されている。
ほとんどのトップランクの長期トラッカーはオフラインでトレーニングされたSiameseアーキテクチャを採用しているため、オンライン更新による短期トラッカーの大きな進歩の恩恵を受けることはできない。
我々は、重要な問題に対処するために、オフラインでトレーニングされた新しいメタ更新器を提案する: トラッカーは、現在のフレームで更新する準備ができているか?
論文 参考訳(メタデータ) (2020-04-01T09:29:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。