論文の概要: MixFormerV2: Efficient Fully Transformer Tracking
- arxiv url: http://arxiv.org/abs/2305.15896v1
- Date: Thu, 25 May 2023 09:50:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 15:55:11.671800
- Title: MixFormerV2: Efficient Fully Transformer Tracking
- Title(参考訳): MixFormerV2: 効率的なフルトランスフォーマートラッキング
- Authors: Yutao Cui, Tianhui Song, Gangshan Wu and Limin Wang
- Abstract要約: トランスフォーマーベースのトラッカーは標準ベンチマークで高い精度を実現している。
しかし、その効率性は、GPUとCPUプラットフォームの両方での実践的なデプロイの障害であり続けている。
本稿では,EmphMixFormerV2と呼ばれるフルトランスフォーマートラッキングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 47.37548708021754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based trackers have achieved strong accuracy on the standard
benchmarks. However, their efficiency remains an obstacle to practical
deployment on both GPU and CPU platforms. In this paper, to overcome this
issue, we propose a fully transformer tracking framework, coined as
\emph{MixFormerV2}, without any dense convolutional operation and complex score
prediction module. Our key design is to introduce four special prediction
tokens and concatenate them with the tokens from target template and search
areas. Then, we apply the unified transformer backbone on these mixed token
sequence. These prediction tokens are able to capture the complex correlation
between target template and search area via mixed attentions. Based on them, we
can easily predict the tracking box and estimate its confidence score through
simple MLP heads. To further improve the efficiency of MixFormerV2, we present
a new distillation-based model reduction paradigm, including dense-to-sparse
distillation and deep-to-shallow distillation. The former one aims to transfer
knowledge from the dense-head based MixViT to our fully transformer tracker,
while the latter one is used to prune some layers of the backbone. We
instantiate two types of MixForemrV2, where the MixFormerV2-B achieves an AUC
of 70.6\% on LaSOT and an AUC of 57.4\% on TNL2k with a high GPU speed of 165
FPS, and the MixFormerV2-S surpasses FEAR-L by 2.7\% AUC on LaSOT with a
real-time CPU speed.
- Abstract(参考訳): トランスフォーマーベースのトラッカーは標準ベンチマークで高い精度を達成した。
しかし、その効率性は、GPUとCPUプラットフォームの両方での実践的なデプロイの障害であり続けている。
本稿では,この問題を解決するために,高密度畳み込み演算や複雑なスコア予測モジュールを使わずに, 'emph{MixFormerV2} と呼ばれる完全変圧器追跡フレームワークを提案する。
私たちの重要な設計は、4つの特別な予測トークンを導入し、ターゲットテンプレートと検索エリアのトークンに結合することです。
次に、これらの混合トークンシーケンスに統一トランスフォーマーバックボーンを適用する。
これらの予測トークンは、混合注意によってターゲットテンプレートと検索領域の複雑な相関を捉えることができる。
これらに基づいて、追跡ボックスを予測し、単純なMLPヘッドを用いて信頼度を推定する。
mixformerv2の効率をさらに高めるために,希薄蒸留と深遠蒸留を含む新しい蒸留ベースのモデル還元パラダイムを提案する。
前者は、濃厚なヘッドベースのMixViTから完全なトランスフォーマートラッカーに知識を転送することを目的としており、後者はバックボーンのいくつかの層を掘り起こすのに使われる。
我々は、MixFormerV2-BがLaSOTで70.6\%、TNL2kで57.4\%、高速GPUで165 FPS、MixFormerV2-SがFEAR-Lを2.7\%、リアルタイムCPUでLaSOTで2.7\%超える2種類のMixForemrV2をインスタンス化する。
関連論文リスト
- SDPose: Tokenized Pose Estimation via Circulation-Guide Self-Distillation [53.675725490807615]
SDPoseは小型変圧器モデルの性能向上のための新しい自己蒸留法である。
SDPose-Tは4.4Mパラメータと1.8 GFLOPを持つ69.7%のmAPを取得し、SDPose-S-V2はMSCOCO検証データセット上で73.5%のmAPを取得する。
論文 参考訳(メタデータ) (2024-04-04T15:23:14Z) - ParFormer: Vision Transformer Baseline with Parallel Local Global Token Mixer and Convolution Attention Patch Embedding [3.4140488674588614]
ParFormerは、異なるトークンミキサーを単一のステージに組み込むことができる拡張トランスフォーマーアーキテクチャである。
我々は、トークンミキサー抽出を改善するために標準パッチ埋め込みの強化として、CAPE(Convolutional Attention Patch Embedding)を提供する。
11M,23M,34Mのモデル変種はそれぞれ80.4%,82.1%,83.1%のスコアを得た。
論文 参考訳(メタデータ) (2024-03-22T07:32:21Z) - Tracking Meets LoRA: Faster Training, Larger Model, Stronger Performance [92.38964762187477]
実験室レベルのリソースをトラッキングするために,より大きな視覚変換器(ViT)のパワーを明らかにする手法であるLoRATを提案する。
私たちの作業の本質は、レイテンシー推論を追加することなく、モデルのパラメータの小さなサブセットを微調整するテクニックであるLoRAを適用することです。
我々は,多層パーセプトロン(MLP)のみをベースとしたアンカーフリーヘッドを設計し,PETRを適応させる。
論文 参考訳(メタデータ) (2024-03-08T11:41:48Z) - SCHEME: Scalable Channer Mixer for Vision Transformers [52.605868919281086]
視覚変換器は多くの視覚タスクにおける印象的な性能のために大きな注目を集めている。
特徴混合が高密度接続に取って代わり,これをブロック対角構造で確認できるかどうかを検討した。
SCHEMEformerの新しいモデル群は、FLOPS、精度、モデルサイズ、精度、スループットの新たなフロンティアを確立する。
論文 参考訳(メタデータ) (2023-12-01T08:22:34Z) - Hourglass Tokenizer for Efficient Transformer-Based 3D Human Pose Estimation [73.31524865643709]
本稿では,Hourglass Tokenizer (HoT) と呼ばれるプラグアンドプレイのプルーニング・アンド・リカバリフレームワークを提案する。
私たちのHoDTは、冗長なフレームのポーズトークンのプルーニングから始まり、フル長のトークンを復元することで終了します。
提案手法は,従来のVPTモデルと比較して高い効率性と推定精度を両立させることができる。
論文 参考訳(メタデータ) (2023-11-20T18:59:51Z) - Separable Self and Mixed Attention Transformers for Efficient Object
Tracking [3.9160947065896803]
本稿では,軽量トラッキングのための自己・混在型アテンショントランスフォーマーアーキテクチャを提案する。
これらの貢献により、提案された軽量トラッカーは、トランスフォーマーベースのバックボーンとヘッドモジュールを、初めて同時にデプロイする。
シミュレーションの結果、SMATはGOT10k、TrackingNet、LaSOT、NfS30、UAV123、AVisTデータセット上の関連する軽量トラッカーのパフォーマンスを上回っている。
論文 参考訳(メタデータ) (2023-09-07T19:23:02Z) - Isomer: Isomerous Transformer for Zero-shot Video Object Segmentation [59.91357714415056]
コンテクスト共有変換器(CST)とセマンティックガザリング散乱変換器(SGST)の2つの変種を提案する。
CSTは、軽量な計算により、画像フレーム内のグローバル共有コンテキスト情報を学習し、SGSTは、前景と背景のセマンティック相関を別々にモデル化する。
多段核融合にバニラ変換器を使用するベースラインと比較して,我々は13倍の速度向上を実現し,新しい最先端ZVOS性能を実現する。
論文 参考訳(メタデータ) (2023-08-13T06:12:00Z) - ShiftAddViT: Mixture of Multiplication Primitives Towards Efficient
Vision Transformer [21.218070662166433]
本稿では,GPU上でのエンドツーエンドの推論高速化を実現するために,$textbfShiftAddViT$と呼ばれる新たな乗法モデルを提案する。
様々な2D/3D視覚タスクの実験は、提案したShiftAddViTの有効性を一貫して検証する。
論文 参考訳(メタデータ) (2023-06-10T13:53:41Z) - Learning Spatial-Frequency Transformer for Visual Object Tracking [15.750739748843744]
最近のトラッカーはTransformerを採用して、広く使われているResNetを新しいバックボーンネットワークとして組み合わせたり置き換えたりしている。
これらの操作は、ターゲットオブジェクトの空間的先行を無視し、最適以下の結果をもたらす可能性があると信じている。
本稿では,GPHA(Spatial Prior and High- frequency emphasis Attention)を同時にモデル化した空間周波数変換器を提案する。
論文 参考訳(メタデータ) (2022-08-18T13:46:12Z) - DoT: An efficient Double Transformer for NLP tasks with tables [3.0079490585515343]
DoTは、問題を2つのサブタスクに分解するダブルトランスフォーマーモデルである。
少ない精度でDoTはトレーニング時間と推論時間を少なくとも50%改善することを示した。
論文 参考訳(メタデータ) (2021-06-01T13:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。