論文の概要: SwinTrack: A Simple and Strong Baseline for Transformer Tracking
- arxiv url: http://arxiv.org/abs/2112.00995v1
- Date: Thu, 2 Dec 2021 05:56:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-03 15:33:07.611903
- Title: SwinTrack: A Simple and Strong Baseline for Transformer Tracking
- Title(参考訳): SwinTrack: トランスフォーマートラッキングのためのシンプルで強力なベースライン
- Authors: Liting Lin, Heng Fan, Yong Xu, Haibin Ling
- Abstract要約: 完全注意型トランスフォーマートラッキングアルゴリズムSwin-Transformer Tracker(SwinTrack)を提案する。
SwinTrackは、機能抽出と機能融合の両方にTransformerを使用し、ターゲットオブジェクトと検索領域の間の完全なインタラクションを可能にする。
我々の徹底的な実験で、SwinTrackはLaSOT上で0.717 SUCで新しい記録を樹立し、45FPSで走りながらSTARKを4.6%上回った。
- 参考スコア(独自算出の注目度): 81.65306568735335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer has recently demonstrated clear potential in improving visual
tracking algorithms. Nevertheless, existing transformer-based trackers mostly
use Transformer to fuse and enhance the features generated by convolutional
neural networks (CNNs). By contrast, in this paper, we propose a fully
attentional-based Transformer tracking algorithm, Swin-Transformer Tracker
(SwinTrack). SwinTrack uses Transformer for both feature extraction and feature
fusion, allowing full interactions between the target object and the search
region for tracking. To further improve performance, we investigate
comprehensively different strategies for feature fusion, position encoding, and
training loss. All these efforts make SwinTrack a simple yet solid baseline. In
our thorough experiments, SwinTrack sets a new record with 0.717 SUC on LaSOT,
surpassing STARK by 4.6\% while still running at 45 FPS. Besides, it achieves
state-of-the-art performances with 0.483 SUC, 0.832 SUC and 0.694 AO on other
challenging LaSOT$_{ext}$, TrackingNet, and GOT-10k. Our implementation and
trained models are available at https://github.com/LitingLin/SwinTrack.
- Abstract(参考訳): Transformerは最近、視覚追跡アルゴリズムの改善の可能性を明らかにしている。
それでも、既存のトランスフォーマーベースのトラッカーは主にTransformerを使用して、畳み込みニューラルネットワーク(CNN)によって生成された機能を融合し、拡張している。
そこで本研究では,完全注意に基づく変圧器追跡アルゴリズム swin-transformer tracker (swintrack)を提案する。
SwinTrackは、機能抽出と機能融合の両方にTransformerを使用し、ターゲットオブジェクトと検索領域の間の完全なインタラクションを可能にする。
性能向上のために,機能融合,位置符号化,トレーニング損失に関する総合的な戦略を検討した。
これらの取り組みにより、swaintrackはシンプルで確固たるベースラインとなる。
我々の徹底的な実験で、SwinTrackはLaSOT上で0.717 SUCで新しい記録を樹立し、45 FPSで走りながらSTARKを4.6 %上回った。
さらに、LaSOT$_{ext}$, TrackingNet, GOT-10kで0.483 SUC, 0.832 SUC, 0.694 AOの最先端パフォーマンスを実現している。
私たちの実装とトレーニングされたモデルはhttps://github.com/LitingLin/SwinTrack.comで利用可能です。
関連論文リスト
- Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。
DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。
複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文 参考訳(メタデータ) (2024-03-26T12:31:58Z) - LiteTrack: Layer Pruning with Asynchronous Feature Extraction for
Lightweight and Efficient Visual Tracking [4.179339279095506]
LiteTrackは、様々なデバイスにわたる高速操作に最適化された効率的なトランスフォーマーベースのトラッキングモデルである。
他の軽量トラッカーよりも精度と効率のトレードオフが良好である。
LiteTrack-B9はGOT-10kで72.2%AO、TrackingNetで82.4%AUC、NVIDIA 2080Ti GPUで171fpsで動作する。
論文 参考訳(メタデータ) (2023-09-17T12:01:03Z) - Separable Self and Mixed Attention Transformers for Efficient Object
Tracking [3.9160947065896803]
本稿では,軽量トラッキングのための自己・混在型アテンショントランスフォーマーアーキテクチャを提案する。
これらの貢献により、提案された軽量トラッカーは、トランスフォーマーベースのバックボーンとヘッドモジュールを、初めて同時にデプロイする。
シミュレーションの結果、SMATはGOT10k、TrackingNet、LaSOT、NfS30、UAV123、AVisTデータセット上の関連する軽量トラッカーのパフォーマンスを上回っている。
論文 参考訳(メタデータ) (2023-09-07T19:23:02Z) - Divert More Attention to Vision-Language Tracking [33.6802730856683]
ConvNetsはいまだに競争力があり、より経済的であり、SOTA追跡を達成する上で友好的であることを示す。
我々の解決策は、単にConvNetsを使って、マルチモーダル視覚言語(VL)追跡のパワーを解き放つことである。
ConvNetsで純粋に学習した我々の統一適応型VL表現は、Transformerの視覚的特徴の単純かつ強力な代替手段であることを示す。
論文 参考訳(メタデータ) (2022-07-03T16:38:24Z) - SparseTT: Visual Tracking with Sparse Transformers [43.1666514605021]
長距離依存をモデル化するために設計された自己保持メカニズムがトランスフォーマーの成功の鍵となる。
本稿では,検索領域において最も関連性の高い情報に焦点をあてることで,少ない注意機構でこの問題を解消する。
本研究では,前景背景分類の精度と目標境界ボックスの回帰性を高めるために,二重頭部予測器を提案する。
論文 参考訳(メタデータ) (2022-05-08T04:00:28Z) - Efficient Visual Tracking via Hierarchical Cross-Attention Transformer [82.92565582642847]
本稿では,HCAT と呼ばれる階層型クロスアテンショントランスを用いた効率的な追跡手法を提案する。
当社のモデルは、GPUで約195fps、CPUで45fps、NVidia Jetson AGX XavierのエッジAIプラットフォームで55fpsで動作します。
論文 参考訳(メタデータ) (2022-03-25T09:45:27Z) - Efficient Visual Tracking with Exemplar Transformers [98.62550635320514]
本稿では,リアルタイム物体追跡のための効率的な変換器であるExemplar Transformerを紹介する。
Exemplar Transformerレイヤを組み込んだビジュアルトラッカーであるE.T.Trackは、CPU上で47fpsで動作する。
これは、他のトランスモデルよりも最大8倍高速である。
論文 参考訳(メタデータ) (2021-12-17T18:57:54Z) - Learning Tracking Representations via Dual-Branch Fully Transformer
Networks [82.21771581817937]
追従のためのトランスフォーマーのみをベースとした,シームズ型デュアルブランチネットワークを提案する。
注目ウィンドウ内の他のパッチとのマッチング結果に基づいて,各パッチの特徴ベクトルを抽出する。
この手法は、最高の性能の方法として、より良い結果または同等の結果を得る。
論文 参考訳(メタデータ) (2021-12-05T13:44:33Z) - Transformer Tracking [76.96796612225295]
相関は追跡分野において、特に人気のあるシャム系トラッカーにおいて重要な役割を果たす。
本研究は,注意のみを用いてテンプレートと検索領域を効果的に結合した,新しい注意型特徴融合ネットワークを提案する。
実験により、TransTは6つの挑戦的なデータセットで非常に有望な結果が得られます。
論文 参考訳(メタデータ) (2021-03-29T09:06:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。