論文の概要: Separable Self and Mixed Attention Transformers for Efficient Object
Tracking
- arxiv url: http://arxiv.org/abs/2309.03979v1
- Date: Thu, 7 Sep 2023 19:23:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-11 16:42:52.912389
- Title: Separable Self and Mixed Attention Transformers for Efficient Object
Tracking
- Title(参考訳): 効率的な物体追跡のための分離自在および混合注意変圧器
- Authors: Goutam Yelluru Gopal, Maria A. Amer
- Abstract要約: 本稿では,軽量トラッキングのための自己・混在型アテンショントランスフォーマーアーキテクチャを提案する。
これらの貢献により、提案された軽量トラッカーは、トランスフォーマーベースのバックボーンとヘッドモジュールを、初めて同時にデプロイする。
シミュレーションの結果、SMATはGOT10k、TrackingNet、LaSOT、NfS30、UAV123、AVisTデータセット上の関連する軽量トラッカーのパフォーマンスを上回っている。
- 参考スコア(独自算出の注目度): 3.9160947065896803
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The deployment of transformers for visual object tracking has shown
state-of-the-art results on several benchmarks. However, the transformer-based
models are under-utilized for Siamese lightweight tracking due to the
computational complexity of their attention blocks. This paper proposes an
efficient self and mixed attention transformer-based architecture for
lightweight tracking. The proposed backbone utilizes the separable mixed
attention transformers to fuse the template and search regions during feature
extraction to generate superior feature encoding. Our prediction head performs
global contextual modeling of the encoded features by leveraging efficient
self-attention blocks for robust target state estimation. With these
contributions, the proposed lightweight tracker deploys a transformer-based
backbone and head module concurrently for the first time. Our ablation study
testifies to the effectiveness of the proposed combination of backbone and head
modules. Simulations show that our Separable Self and Mixed Attention-based
Tracker, SMAT, surpasses the performance of related lightweight trackers on
GOT10k, TrackingNet, LaSOT, NfS30, UAV123, and AVisT datasets, while running at
37 fps on CPU, 158 fps on GPU, and having 3.8M parameters. For example, it
significantly surpasses the closely related trackers E.T.Track and
MixFormerV2-S on GOT10k-test by a margin of 7.9% and 5.8%, respectively, in the
AO metric. The tracker code and model is available at
https://github.com/goutamyg/SMAT
- Abstract(参考訳): 視覚オブジェクト追跡のためのトランスフォーマーの配置は、いくつかのベンチマークで最先端の結果を示している。
しかし、トランスフォーマーベースのモデルは、注意ブロックの計算複雑性のため、シームズ軽量追跡には未利用である。
本稿では,軽量トラッキングのための自己・混在型トランスフォーマーアーキテクチャを提案する。
提案したバックボーンは、分離可能な混合注意変換器を用いて特徴抽出中にテンプレートと検索領域を融合させ、優れた特徴符号化を生成する。
我々の予測ヘッドは、高能率な目標状態推定に効率的な自己認識ブロックを活用することにより、符号化された特徴のグローバルな文脈モデリングを行う。
これらの貢献により、提案されている軽量トラッカーは、初めてトランスフォーマーベースのバックボーンとヘッドモジュールを同時にデプロイする。
本研究は,提案するバックボーンとヘッドモジュールの組合せの有効性を検証した。
シミュレーションによれば、当社の分離可能な自己および混合注意型トラッカーであるsmatは、got10k、trackingnet、lasot、nfs30、uav123、avistデータセット上の関連する軽量トラッカーのパフォーマンスを上回っており、cpu上で37fps、gpu上で158fps、パラメータ3.8mで動作している。
例えば、GOT10k-testのE.T.TrackとMixFormerV2-Sをそれぞれ7.9%、AOの5.8%で大きく上回っている。
trackerのコードとモデルはhttps://github.com/goutamyg/smatで入手できる。
関連論文リスト
- Mamba-FETrack: Frame-Event Tracking via State Space Model [14.610806117193116]
本稿では,状態空間モデル(SSM)に基づく新しいRGBイベント追跡フレームワークであるMamba-FETrackを提案する。
具体的には、RGBフレームとイベントストリームの特徴を抽出するために、2つのモダリティ固有のMambaバックボーンネットワークを採用する。
FELTとFE108データセットの大規模な実験により、提案したトラッカーの有効性と有効性を完全に検証した。
論文 参考訳(メタデータ) (2024-04-28T13:12:49Z) - Tracking Meets LoRA: Faster Training, Larger Model, Stronger Performance [87.19164603145056]
実験室レベルの資源をトラッキングするための大規模ViTモデルのパワーを明らかにする手法であるLoRATを提案する。
私たちの作業の本質は、推論レイテンシを追加することなく、モデルパラメータの小さなサブセットを微調整するテクニックであるLoRAを適用することです。
我々はPETRの適応のみに基づくアンカーフリーヘッドを設計し、計算オーバーヘッドを少なくして性能を向上する。
論文 参考訳(メタデータ) (2024-03-08T11:41:48Z) - MixFormerV2: Efficient Fully Transformer Tracking [49.07428299165031]
トランスフォーマーベースのトラッカーは標準ベンチマークで高い精度を実現している。
しかし、その効率性は、GPUとCPUプラットフォームの両方での実践的なデプロイの障害であり続けている。
本稿では,EmphMixFormerV2と呼ばれるフルトランスフォーマートラッキングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-25T09:50:54Z) - Compact Transformer Tracker with Correlative Masked Modeling [16.234426179567837]
Transformerフレームワークは、ビジュアルオブジェクト追跡において優れたパフォーマンスを示している。
最近の進歩は、より優れた情報収集のための注意機構の変種を探究することに焦点を当てている。
本稿では,バニラ自己注意構造が情報収集に十分であることを示す。
論文 参考訳(メタデータ) (2023-01-26T04:58:08Z) - Strong-TransCenter: Improved Multi-Object Tracking based on Transformers
with Dense Representations [1.2891210250935146]
TransCenterはトランスフォーマーベースのMOTアーキテクチャで、すべてのオブジェクトを正確に追跡するための高密度なオブジェクトクエリを備えている。
本稿では,トラック・バイ・ディテクト・パラダイムに基づくポスト処理機構を用いたトラッカーの改良について述べる。
新しいトラッカーでは,IDF1とHOTAの指標が大幅に改善され,MOTAの指標に匹敵する結果が得られた。
論文 参考訳(メタデータ) (2022-10-24T19:47:58Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Efficient Visual Tracking with Exemplar Transformers [98.62550635320514]
本稿では,リアルタイム物体追跡のための効率的な変換器であるExemplar Transformerを紹介する。
Exemplar Transformerレイヤを組み込んだビジュアルトラッカーであるE.T.Trackは、CPU上で47fpsで動作する。
これは、他のトランスモデルよりも最大8倍高速である。
論文 参考訳(メタデータ) (2021-12-17T18:57:54Z) - Transformer Tracking [76.96796612225295]
相関は追跡分野において、特に人気のあるシャム系トラッカーにおいて重要な役割を果たす。
本研究は,注意のみを用いてテンプレートと検索領域を効果的に結合した,新しい注意型特徴融合ネットワークを提案する。
実験により、TransTは6つの挑戦的なデータセットで非常に有望な結果が得られます。
論文 参考訳(メタデータ) (2021-03-29T09:06:55Z) - Simultaneous Detection and Tracking with Motion Modelling for Multiple
Object Tracking [94.24393546459424]
本稿では,複数の物体の運動パラメータを推定し,共同検出と関連付けを行うディープ・モーション・モデリング・ネットワーク(DMM-Net)を提案する。
DMM-Netは、人気の高いUA-DETRACチャレンジで12.80 @120+ fpsのPR-MOTAスコアを達成した。
また,車両追跡のための大規模な公開データセットOmni-MOTを合成し,精密な接地トルースアノテーションを提供する。
論文 参考訳(メタデータ) (2020-08-20T08:05:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。