論文の概要: MixFormerV2: Efficient Fully Transformer Tracking
- arxiv url: http://arxiv.org/abs/2305.15896v1
- Date: Thu, 25 May 2023 09:50:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 15:55:11.671800
- Title: MixFormerV2: Efficient Fully Transformer Tracking
- Title(参考訳): MixFormerV2: 効率的なフルトランスフォーマートラッキング
- Authors: Yutao Cui, Tianhui Song, Gangshan Wu and Limin Wang
- Abstract要約: トランスフォーマーベースのトラッカーは標準ベンチマークで高い精度を実現している。
しかし、その効率性は、GPUとCPUプラットフォームの両方での実践的なデプロイの障害であり続けている。
本稿では,EmphMixFormerV2と呼ばれるフルトランスフォーマートラッキングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 47.37548708021754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based trackers have achieved strong accuracy on the standard
benchmarks. However, their efficiency remains an obstacle to practical
deployment on both GPU and CPU platforms. In this paper, to overcome this
issue, we propose a fully transformer tracking framework, coined as
\emph{MixFormerV2}, without any dense convolutional operation and complex score
prediction module. Our key design is to introduce four special prediction
tokens and concatenate them with the tokens from target template and search
areas. Then, we apply the unified transformer backbone on these mixed token
sequence. These prediction tokens are able to capture the complex correlation
between target template and search area via mixed attentions. Based on them, we
can easily predict the tracking box and estimate its confidence score through
simple MLP heads. To further improve the efficiency of MixFormerV2, we present
a new distillation-based model reduction paradigm, including dense-to-sparse
distillation and deep-to-shallow distillation. The former one aims to transfer
knowledge from the dense-head based MixViT to our fully transformer tracker,
while the latter one is used to prune some layers of the backbone. We
instantiate two types of MixForemrV2, where the MixFormerV2-B achieves an AUC
of 70.6\% on LaSOT and an AUC of 57.4\% on TNL2k with a high GPU speed of 165
FPS, and the MixFormerV2-S surpasses FEAR-L by 2.7\% AUC on LaSOT with a
real-time CPU speed.
- Abstract(参考訳): トランスフォーマーベースのトラッカーは標準ベンチマークで高い精度を達成した。
しかし、その効率性は、GPUとCPUプラットフォームの両方での実践的なデプロイの障害であり続けている。
本稿では,この問題を解決するために,高密度畳み込み演算や複雑なスコア予測モジュールを使わずに, 'emph{MixFormerV2} と呼ばれる完全変圧器追跡フレームワークを提案する。
私たちの重要な設計は、4つの特別な予測トークンを導入し、ターゲットテンプレートと検索エリアのトークンに結合することです。
次に、これらの混合トークンシーケンスに統一トランスフォーマーバックボーンを適用する。
これらの予測トークンは、混合注意によってターゲットテンプレートと検索領域の複雑な相関を捉えることができる。
これらに基づいて、追跡ボックスを予測し、単純なMLPヘッドを用いて信頼度を推定する。
mixformerv2の効率をさらに高めるために,希薄蒸留と深遠蒸留を含む新しい蒸留ベースのモデル還元パラダイムを提案する。
前者は、濃厚なヘッドベースのMixViTから完全なトランスフォーマートラッカーに知識を転送することを目的としており、後者はバックボーンのいくつかの層を掘り起こすのに使われる。
我々は、MixFormerV2-BがLaSOTで70.6\%、TNL2kで57.4\%、高速GPUで165 FPS、MixFormerV2-SがFEAR-Lを2.7\%、リアルタイムCPUでLaSOTで2.7\%超える2種類のMixForemrV2をインスタンス化する。
関連論文リスト
- Mixture-of-Modules: Reinventing Transformers as Dynamic Assemblies of Modules [96.21649779507831]
そこで我々は,Mix-of-modules (MoM) と呼ばれる新しいアーキテクチャを提案する。
MoMは、任意の層がその位置に関係なくトークンを計算することができるという直感によって動機付けられている。
MoMはトランスフォーマーのための統一されたフレームワークを提供するだけでなく、冗長性を減らすための柔軟で学習可能なアプローチを提供する。
論文 参考訳(メタデータ) (2024-07-09T08:50:18Z) - SDPose: Tokenized Pose Estimation via Circulation-Guide Self-Distillation [53.675725490807615]
SDPoseは小型変圧器モデルの性能向上のための新しい自己蒸留法である。
SDPose-Tは4.4Mパラメータと1.8 GFLOPを持つ69.7%のmAPを取得し、SDPose-S-V2はMSCOCO検証データセット上で73.5%のmAPを取得する。
論文 参考訳(メタデータ) (2024-04-04T15:23:14Z) - SCHEME: Scalable Channel Mixer for Vision Transformers [52.605868919281086]
ビジョントランスフォーマーは多くの視覚タスクにおいて印象的なパフォーマンスを達成した。
チャネルミキサーや機能ミキシングブロック(FFNか)の研究は、はるかに少ない。
密度の高い接続は、より大きな膨張比をサポートする対角線ブロック構造に置き換えることができることを示す。
論文 参考訳(メタデータ) (2023-12-01T08:22:34Z) - Hourglass Tokenizer for Efficient Transformer-Based 3D Human Pose Estimation [73.31524865643709]
本稿では,Hourglass Tokenizer (HoT) と呼ばれるプラグアンドプレイのプルーニング・アンド・リカバリフレームワークを提案する。
私たちのHoDTは、冗長なフレームのポーズトークンのプルーニングから始まり、フル長のトークンを復元することで終了します。
提案手法は,従来のVPTモデルと比較して高い効率性と推定精度を両立させることができる。
論文 参考訳(メタデータ) (2023-11-20T18:59:51Z) - Separable Self and Mixed Attention Transformers for Efficient Object
Tracking [3.9160947065896803]
本稿では,軽量トラッキングのための自己・混在型アテンショントランスフォーマーアーキテクチャを提案する。
これらの貢献により、提案された軽量トラッカーは、トランスフォーマーベースのバックボーンとヘッドモジュールを、初めて同時にデプロイする。
シミュレーションの結果、SMATはGOT10k、TrackingNet、LaSOT、NfS30、UAV123、AVisTデータセット上の関連する軽量トラッカーのパフォーマンスを上回っている。
論文 参考訳(メタデータ) (2023-09-07T19:23:02Z) - Isomer: Isomerous Transformer for Zero-shot Video Object Segmentation [59.91357714415056]
コンテクスト共有変換器(CST)とセマンティックガザリング散乱変換器(SGST)の2つの変種を提案する。
CSTは、軽量な計算により、画像フレーム内のグローバル共有コンテキスト情報を学習し、SGSTは、前景と背景のセマンティック相関を別々にモデル化する。
多段核融合にバニラ変換器を使用するベースラインと比較して,我々は13倍の速度向上を実現し,新しい最先端ZVOS性能を実現する。
論文 参考訳(メタデータ) (2023-08-13T06:12:00Z) - ShiftAddViT: Mixture of Multiplication Primitives Towards Efficient Vision Transformer [6.473688838974095]
本稿では,GPU上でのエンドツーエンドの推論高速化を実現するために,$textbfShiftAddViT$と呼ばれる新たな乗法モデルを提案する。
様々な2D/3D視覚タスクの実験は、提案したShiftAddViTの有効性を一貫して検証する。
論文 参考訳(メタデータ) (2023-06-10T13:53:41Z) - Learning Spatial-Frequency Transformer for Visual Object Tracking [15.750739748843744]
最近のトラッカーはTransformerを採用して、広く使われているResNetを新しいバックボーンネットワークとして組み合わせたり置き換えたりしている。
これらの操作は、ターゲットオブジェクトの空間的先行を無視し、最適以下の結果をもたらす可能性があると信じている。
本稿では,GPHA(Spatial Prior and High- frequency emphasis Attention)を同時にモデル化した空間周波数変換器を提案する。
論文 参考訳(メタデータ) (2022-08-18T13:46:12Z) - Unleashing Vanilla Vision Transformer with Masked Image Modeling for
Object Detection [39.37861288287621]
MIMで事前訓練されたバニラViTは、難しいオブジェクトレベルの認識シナリオで驚くほどうまく機能する。
ランダムなコンパクトなコンボリューションステムは、事前訓練された大きなカーネルのパッチフィケーションステムに取って代わる。
提案された検出器はMIMDetと呼ばれ、MIMで事前訓練されたバニラVITが2.3ボックスAPと2.5マスクAPで階層スウィントランスより優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-04-06T17:59:04Z) - DoT: An efficient Double Transformer for NLP tasks with tables [3.0079490585515343]
DoTは、問題を2つのサブタスクに分解するダブルトランスフォーマーモデルである。
少ない精度でDoTはトレーニング時間と推論時間を少なくとも50%改善することを示した。
論文 参考訳(メタデータ) (2021-06-01T13:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。