論文の概要: MixFormer: End-to-End Tracking with Iterative Mixed Attention
- arxiv url: http://arxiv.org/abs/2302.02814v1
- Date: Mon, 6 Feb 2023 14:38:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 16:28:42.013229
- Title: MixFormer: End-to-End Tracking with Iterative Mixed Attention
- Title(参考訳): MixFormer: 反復的混合注意によるエンドツーエンドトラッキング
- Authors: Yutao Cui, Cheng Jiang, Gangshan Wu and Limin Wang
- Abstract要約: 変換器上に構築されたMixFormerと呼ばれる,コンパクトなトラッキングフレームワークを提案する。
特徴抽出と目標情報統合を同時に行うための混合注意モジュール(MAM)を提案する。
私たちのMixFormerトラッカーは、7つのトラッキングベンチマークで最先端のパフォーマンスを設定しました。
- 参考スコア(独自算出の注目度): 47.78513247048846
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual object tracking often employs a multi-stage pipeline of feature
extraction, target information integration, and bounding box estimation. To
simplify this pipeline and unify the process of feature extraction and target
information integration, in this paper, we present a compact tracking
framework, termed as MixFormer, built upon transformers. Our core design is to
utilize the flexibility of attention operations, and propose a Mixed Attention
Module (MAM) for simultaneous feature extraction and target information
integration. This synchronous modeling scheme allows to extract target-specific
discriminative features and perform extensive communication between target and
search area. Based on MAM, we build our MixFormer trackers simply by stacking
multiple MAMs and placing a localization head on top. Specifically, we
instantiate two types of MixFormer trackers, a hierarchical tracker MixCvT, and
a non-hierarchical tracker MixViT. For these two trackers, we investigate a
series of pre-training methods and uncover the different behaviors between
supervised pre-training and self-supervised pre-training in our MixFormer
trackers. We also extend the masked pre-training to our MixFormer trackers and
design the competitive TrackMAE pre-training technique. Finally, to handle
multiple target templates during online tracking, we devise an asymmetric
attention scheme in MAM to reduce computational cost, and propose an effective
score prediction module to select high-quality templates. Our MixFormer
trackers set a new state-of-the-art performance on seven tracking benchmarks,
including LaSOT, TrackingNet, VOT2020, GOT-10k, OTB100 and UAV123. In
particular, our MixViT-L achieves AUC score of 73.3% on LaSOT, 86.1% on
TrackingNet, EAO of 0.584 on VOT2020, and AO of 75.7% on GOT-10k. Code and
trained models will be made available at https://github.com/MCG-NJU/MixFormer.
- Abstract(参考訳): ビジュアルオブジェクト追跡では、機能抽出、ターゲット情報統合、バウンディングボックス推定の多段階パイプラインが使用されることが多い。
本稿では,このパイプラインを簡素化し,特徴抽出とターゲット情報統合のプロセスを統合するために,トランスフォーマー上に構築されたMixFormerと呼ばれる,コンパクトな追跡フレームワークを提案する。
我々の中核となる設計は、注意操作の柔軟性を活用し、特徴抽出と目標情報の統合を同時に行うための混合注意モジュール(MAM)を提案することである。
この同期モデリング手法により、ターゲット固有の識別特徴を抽出し、ターゲットと検索領域間の広範な通信を行うことができる。
MAMに基づいて、MixFormerトラッカーを構築するには、複数のMAMを積み重ねて、その上にローカライズヘッドを置くだけです。
具体的には、階層型トラッカーmixcvtと非階層型トラッカーmixvitの2つのタイプのmixformerトラッカーをインスタンス化する。
これら2つのトラッカーについて,MixFormerトラッカーにおける教師付き事前学習と自己指導型事前学習の相違点を明らかにする。
また、マスク付き事前トレーニングをMixFormerトラッカーに拡張し、競合するTrackMAE事前トレーニング技術を設計する。
最後に、オンライントラッキング中に複数のターゲットテンプレートを処理するために、計算コストを削減するためにMAMに非対称なアテンションスキームを考案し、高品質テンプレートを選択するための効果的なスコア予測モジュールを提案する。
私たちのMixFormerトラッカーは,LaSOT, TrackingNet, VOT2020, GOT-10k, OTB100, UAV123を含む7つのトラッキングベンチマークに対して,最先端のパフォーマンスを新たに設定しました。
特に、MixViT-Lは、LaSOTで73.3%、追跡Netで86.1%、VOT2020で0.584、GOT-10kで75.7%のAUCスコアを達成した。
コードとトレーニングされたモデルはhttps://github.com/mcg-nju/mixformerで利用可能になる。
関連論文リスト
- HSTrack: Bootstrap End-to-End Multi-Camera 3D Multi-object Tracking with Hybrid Supervision [34.7347336548199]
カメラベースの3Dマルチオブジェクトトラッキング(MOT)では、一般的な手法はトラッキング・バイ・クエリー・プロパゲーションのパラダイムに従っている。
本稿では,HSTrackを提案する。HSTrackは,マルチタスク学習を協調して検出・追跡する新しいプラグイン・アンド・プレイ方式である。
論文 参考訳(メタデータ) (2024-11-11T08:18:49Z) - MixFormerV2: Efficient Fully Transformer Tracking [49.07428299165031]
トランスフォーマーベースのトラッカーは標準ベンチマークで高い精度を実現している。
しかし、その効率性は、GPUとCPUプラットフォームの両方での実践的なデプロイの障害であり続けている。
本稿では,EmphMixFormerV2と呼ばれるフルトランスフォーマートラッキングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-25T09:50:54Z) - OmniTracker: Unifying Object Tracking by Tracking-with-Detection [119.51012668709502]
OmniTrackerは、完全に共有されたネットワークアーキテクチャ、モデルウェイト、推論パイプラインですべてのトラッキングタスクを解決するために提供されている。
LaSOT、TrackingNet、DAVIS16-17、MOT17、MOTS20、YTVIS19を含む7つの追跡データセットの実験は、OmniTrackerがタスク固有の追跡モデルと統合された追跡モデルの両方よりも、オンパーまたはそれ以上の結果を達成することを示した。
論文 参考訳(メタデータ) (2023-03-21T17:59:57Z) - SMILEtrack: SiMIlarity LEarning for Occlusion-Aware Multiple Object
Tracking [20.286114226299237]
本稿では,SLM(Siamese Network-based similarity Learning Module)を用いたオブジェクトトラッカーSMILEtrackを紹介する。
SLMは2つのオブジェクト間の外観類似性を計算し、分離検出および埋め込みモデルにおける特徴記述子の制限を克服する。
第2に、連続するビデオフレーム間の堅牢なオブジェクトマッチングのための新しいGATE関数を備えた類似マッチングカスケード(SMC)モジュールを開発する。
論文 参考訳(メタデータ) (2022-11-16T10:49:48Z) - Unified Transformer Tracker for Object Tracking [58.65901124158068]
異なるシナリオにおけるトラッキング問題に1つのパラダイムで対処するために,UTT(Unified Transformer Tracker)を提案する。
SOT(Single Object Tracking)とMOT(Multiple Object Tracking)の両方を対象とするトラックトランスフォーマーを開発した。
論文 参考訳(メタデータ) (2022-03-29T01:38:49Z) - MixFormer: End-to-End Tracking with Iterative Mixed Attention [47.37548708021754]
変換器上に構築されたMixFormerと呼ばれる,コンパクトなトラッキングフレームワークを提案する。
我々の中核となる設計は、注意操作の柔軟性を活用し、特徴抽出と目標情報の統合を同時に行うための混合注意モジュール(MAM)を提案することである。
私たちのMixFormerは、LaSOT、TrackingNet、VOT2020、GOT-10k、UAV123を含む5つのトラッキングベンチマークで、最先端のパフォーマンスを新たに設定しています。
論文 参考訳(メタデータ) (2022-03-21T16:04:21Z) - Tracking by Instance Detection: A Meta-Learning Approach [99.66119903655711]
本稿では,高性能トラッカー構築のための3段階の原理的手法を提案する。
我々は2つの現代的な検出器であるRetinaNetとFCOSをベースに、Retina-MAMLとFCOS-MAMLという2つのトラッカーを構築した。
両方のトラッカーは40FPSでリアルタイムに動作します。
論文 参考訳(メタデータ) (2020-04-02T05:55:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。