論文の概要: MixFormerV2: Efficient Fully Transformer Tracking
- arxiv url: http://arxiv.org/abs/2305.15896v1
- Date: Thu, 25 May 2023 09:50:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 15:55:11.671800
- Title: MixFormerV2: Efficient Fully Transformer Tracking
- Title(参考訳): MixFormerV2: 効率的なフルトランスフォーマートラッキング
- Authors: Yutao Cui, Tianhui Song, Gangshan Wu and Limin Wang
- Abstract要約: トランスフォーマーベースのトラッカーは標準ベンチマークで高い精度を実現している。
しかし、その効率性は、GPUとCPUプラットフォームの両方での実践的なデプロイの障害であり続けている。
本稿では,EmphMixFormerV2と呼ばれるフルトランスフォーマートラッキングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 47.37548708021754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based trackers have achieved strong accuracy on the standard
benchmarks. However, their efficiency remains an obstacle to practical
deployment on both GPU and CPU platforms. In this paper, to overcome this
issue, we propose a fully transformer tracking framework, coined as
\emph{MixFormerV2}, without any dense convolutional operation and complex score
prediction module. Our key design is to introduce four special prediction
tokens and concatenate them with the tokens from target template and search
areas. Then, we apply the unified transformer backbone on these mixed token
sequence. These prediction tokens are able to capture the complex correlation
between target template and search area via mixed attentions. Based on them, we
can easily predict the tracking box and estimate its confidence score through
simple MLP heads. To further improve the efficiency of MixFormerV2, we present
a new distillation-based model reduction paradigm, including dense-to-sparse
distillation and deep-to-shallow distillation. The former one aims to transfer
knowledge from the dense-head based MixViT to our fully transformer tracker,
while the latter one is used to prune some layers of the backbone. We
instantiate two types of MixForemrV2, where the MixFormerV2-B achieves an AUC
of 70.6\% on LaSOT and an AUC of 57.4\% on TNL2k with a high GPU speed of 165
FPS, and the MixFormerV2-S surpasses FEAR-L by 2.7\% AUC on LaSOT with a
real-time CPU speed.
- Abstract(参考訳): トランスフォーマーベースのトラッカーは標準ベンチマークで高い精度を達成した。
しかし、その効率性は、GPUとCPUプラットフォームの両方での実践的なデプロイの障害であり続けている。
本稿では,この問題を解決するために,高密度畳み込み演算や複雑なスコア予測モジュールを使わずに, 'emph{MixFormerV2} と呼ばれる完全変圧器追跡フレームワークを提案する。
私たちの重要な設計は、4つの特別な予測トークンを導入し、ターゲットテンプレートと検索エリアのトークンに結合することです。
次に、これらの混合トークンシーケンスに統一トランスフォーマーバックボーンを適用する。
これらの予測トークンは、混合注意によってターゲットテンプレートと検索領域の複雑な相関を捉えることができる。
これらに基づいて、追跡ボックスを予測し、単純なMLPヘッドを用いて信頼度を推定する。
mixformerv2の効率をさらに高めるために,希薄蒸留と深遠蒸留を含む新しい蒸留ベースのモデル還元パラダイムを提案する。
前者は、濃厚なヘッドベースのMixViTから完全なトランスフォーマートラッカーに知識を転送することを目的としており、後者はバックボーンのいくつかの層を掘り起こすのに使われる。
我々は、MixFormerV2-BがLaSOTで70.6\%、TNL2kで57.4\%、高速GPUで165 FPS、MixFormerV2-SがFEAR-Lを2.7\%、リアルタイムCPUでLaSOTで2.7\%超える2種類のMixForemrV2をインスタンス化する。
関連論文リスト
- MixFormer: End-to-End Tracking with Iterative Mixed Attention [47.78513247048846]
変換器上に構築されたMixFormerと呼ばれる,コンパクトなトラッキングフレームワークを提案する。
特徴抽出と目標情報統合を同時に行うための混合注意モジュール(MAM)を提案する。
私たちのMixFormerトラッカーは、7つのトラッキングベンチマークで最先端のパフォーマンスを設定しました。
論文 参考訳(メタデータ) (2023-02-06T14:38:09Z) - Fcaformer: Forward Cross Attention in Hybrid Vision Transformer [29.09883780571206]
ハイブリッド・ビジョン・トランス(FcaFormer)のための前方クロスアテンションを提案する。
私たちのFcaFormerは1630万のパラメータと約36億のMACでImagenetの83.1%のトップ-1の精度を実現しています。
これにより、ほぼ半分のパラメータといくつかの計算コストを節約し、蒸留されたEfficientFormerよりも0.7%高い精度を達成できる。
論文 参考訳(メタデータ) (2022-11-14T08:43:44Z) - Learning Spatial-Frequency Transformer for Visual Object Tracking [15.750739748843744]
最近のトラッカーはTransformerを採用して、広く使われているResNetを新しいバックボーンネットワークとして組み合わせたり置き換えたりしている。
これらの操作は、ターゲットオブジェクトの空間的先行を無視し、最適以下の結果をもたらす可能性があると信じている。
本稿では,GPHA(Spatial Prior and High- frequency emphasis Attention)を同時にモデル化した空間周波数変換器を提案する。
論文 参考訳(メタデータ) (2022-08-18T13:46:12Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Adaptive Split-Fusion Transformer [85.02951231565893]
本稿では,適応重みによる畳み込みと注目の分岐を異なる方法で扱うための適応分割変換器(ASF-former)を提案する。
ImageNet-1Kのような標準ベンチマークの実験では、我々のASFフォーマーはCNN、トランスフォーマー、ハイブリッドパイロットを精度で上回っている。
論文 参考訳(メタデータ) (2022-04-26T10:00:28Z) - Unleashing Vanilla Vision Transformer with Masked Image Modeling for
Object Detection [39.37861288287621]
MIMで事前訓練されたバニラViTは、難しいオブジェクトレベルの認識シナリオで驚くほどうまく機能する。
ランダムなコンパクトなコンボリューションステムは、事前訓練された大きなカーネルのパッチフィケーションステムに取って代わる。
提案された検出器はMIMDetと呼ばれ、MIMで事前訓練されたバニラVITが2.3ボックスAPと2.5マスクAPで階層スウィントランスより優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-04-06T17:59:04Z) - DoT: An efficient Double Transformer for NLP tasks with tables [3.0079490585515343]
DoTは、問題を2つのサブタスクに分解するダブルトランスフォーマーモデルである。
少ない精度でDoTはトレーニング時間と推論時間を少なくとも50%改善することを示した。
論文 参考訳(メタデータ) (2021-06-01T13:33:53Z) - Transformer Tracking [76.96796612225295]
相関は追跡分野において、特に人気のあるシャム系トラッカーにおいて重要な役割を果たす。
本研究は,注意のみを用いてテンプレートと検索領域を効果的に結合した,新しい注意型特徴融合ネットワークを提案する。
実験により、TransTは6つの挑戦的なデータセットで非常に有望な結果が得られます。
論文 参考訳(メタデータ) (2021-03-29T09:06:55Z) - Mixup-Transformer: Dynamic Data Augmentation for NLP Tasks [75.69896269357005]
Mixupは、入力例と対応するラベルを線形に補間する最新のデータ拡張技術である。
本稿では,自然言語処理タスクにmixupを適用する方法について検討する。
我々は、様々なNLPタスクに対して、mixup-transformerと呼ばれる、トランスフォーマーベースの事前学習アーキテクチャにmixupを組み込んだ。
論文 参考訳(メタデータ) (2020-10-05T23:37:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。