論文の概要: Compact Transformer Tracker with Correlative Masked Modeling
- arxiv url: http://arxiv.org/abs/2301.10938v1
- Date: Thu, 26 Jan 2023 04:58:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-27 14:20:47.408431
- Title: Compact Transformer Tracker with Correlative Masked Modeling
- Title(参考訳): 相関マスクモデルを用いた小型変圧器トラッカー
- Authors: Zikai Song, Run Luo, Junqing Yu, Yi-Ping Phoebe Chen, Wei Yang
- Abstract要約: Transformerフレームワークは、ビジュアルオブジェクト追跡において優れたパフォーマンスを示している。
最近の進歩は、より優れた情報収集のための注意機構の変種を探究することに焦点を当てている。
本稿では,バニラ自己注意構造が情報収集に十分であることを示す。
- 参考スコア(独自算出の注目度): 16.234426179567837
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Transformer framework has been showing superior performances in visual object
tracking for its great strength in information aggregation across the template
and search image with the well-known attention mechanism. Most recent advances
focus on exploring attention mechanism variants for better information
aggregation. We find these schemes are equivalent to or even just a subset of
the basic self-attention mechanism. In this paper, we prove that the vanilla
self-attention structure is sufficient for information aggregation, and
structural adaption is unnecessary. The key is not the attention structure, but
how to extract the discriminative feature for tracking and enhance the
communication between the target and search image. Based on this finding, we
adopt the basic vision transformer (ViT) architecture as our main tracker and
concatenate the template and search image for feature embedding. To guide the
encoder to capture the invariant feature for tracking, we attach a lightweight
correlative masked decoder which reconstructs the original template and search
image from the corresponding masked tokens. The correlative masked decoder
serves as a plugin for the compact transform tracker and is skipped in
inference. Our compact tracker uses the most simple structure which only
consists of a ViT backbone and a box head, and can run at 40 fps. Extensive
experiments show the proposed compact transform tracker outperforms existing
approaches, including advanced attention variants, and demonstrates the
sufficiency of self-attention in tracking tasks. Our method achieves
state-of-the-art performance on five challenging datasets, along with the
VOT2020, UAV123, LaSOT, TrackingNet, and GOT-10k benchmarks. Our project is
available at https://github.com/HUSTDML/CTTrack.
- Abstract(参考訳): Transformerフレームワークは、テンプレートと検索画像によく知られたアテンション機構を備えた情報収集において、視覚オブジェクト追跡において優れたパフォーマンスを示している。
最近の進歩は、より優れた情報集約のための注意機構の変種を探究することに焦点を当てている。
これらのスキームは、基本的な自己認識機構のサブセットと同等か、あるいは単なるサブセットである。
本稿では,バニラ自己注意構造は情報集約に十分であり,構造適応は不要であることを示す。
鍵となるのは注意構造ではなく、ターゲットと検索画像間のコミュニケーションを追跡し強化するための識別的特徴を抽出する方法である。
この発見に基づいて、我々は基本視覚変換器(ViT)アーキテクチャをメイントラッカーとして採用し、特徴埋め込みのためのテンプレートと検索画像を結合する。
追跡のための不変な特徴を捉えるためのエンコーダのガイドとして,対応するマスクトークンから元のテンプレートと検索画像を再構成する軽量な相関マスクデコーダを取り付ける。
相関マスクデコーダはコンパクトトランスフォーメーショントラッカーのプラグインとして機能し、推論でスキップされる。
我々の小型トラッカーは、ViTバックボーンとボックスヘッドのみで構成され、40fpsで動作可能な最も単純な構造を使っている。
広範な実験により,提案するコンパクトトランスフォーメーショントラッカは,先進的注意型を含む既存のアプローチを上回り,追跡作業における自己着脱の十分性を示す。
提案手法は,VOT2020, UAV123, LaSOT, TrackingNet, GOT-10kベンチマークとともに,5つの挑戦的データセットの最先端性能を実現する。
私たちのプロジェクトはhttps://github.com/hustdml/cttrackで利用可能です。
関連論文リスト
- Separable Self and Mixed Attention Transformers for Efficient Object
Tracking [3.9160947065896803]
本稿では,軽量トラッキングのための自己・混在型アテンショントランスフォーマーアーキテクチャを提案する。
これらの貢献により、提案された軽量トラッカーは、トランスフォーマーベースのバックボーンとヘッドモジュールを、初めて同時にデプロイする。
シミュレーションの結果、SMATはGOT10k、TrackingNet、LaSOT、NfS30、UAV123、AVisTデータセット上の関連する軽量トラッカーのパフォーマンスを上回っている。
論文 参考訳(メタデータ) (2023-09-07T19:23:02Z) - End-to-end Tracking with a Multi-query Transformer [96.13468602635082]
マルチオブジェクトトラッキング(MOT)は、時間とともにシーン内のオブジェクトの位置、外観、アイデンティティを同時に推論する必要がある課題である。
本研究の目的は、トラッキング・バイ・ディテクト・アプローチを超えて、未知のオブジェクト・クラスに対してもよく機能するクラスに依存しないトラッキングへと移行することである。
論文 参考訳(メタデータ) (2022-10-26T10:19:37Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - SparseTT: Visual Tracking with Sparse Transformers [43.1666514605021]
長距離依存をモデル化するために設計された自己保持メカニズムがトランスフォーマーの成功の鍵となる。
本稿では,検索領域において最も関連性の高い情報に焦点をあてることで,少ない注意機構でこの問題を解消する。
本研究では,前景背景分類の精度と目標境界ボックスの回帰性を高めるために,二重頭部予測器を提案する。
論文 参考訳(メタデータ) (2022-05-08T04:00:28Z) - Efficient Visual Tracking with Exemplar Transformers [98.62550635320514]
本稿では,リアルタイム物体追跡のための効率的な変換器であるExemplar Transformerを紹介する。
Exemplar Transformerレイヤを組み込んだビジュアルトラッカーであるE.T.Trackは、CPU上で47fpsで動作する。
これは、他のトランスモデルよりも最大8倍高速である。
論文 参考訳(メタデータ) (2021-12-17T18:57:54Z) - Learning Dynamic Compact Memory Embedding for Deformable Visual Object
Tracking [82.34356879078955]
本稿では,セグメント化に基づく変形可能な視覚追跡手法の識別を強化するために,コンパクトなメモリ埋め込みを提案する。
DAVIS 2017ベンチマークでは,D3SやSiamMaskなどのセグメンテーションベースのトラッカーよりも優れている。
論文 参考訳(メタデータ) (2021-11-23T03:07:12Z) - TrTr: Visual Tracking with Transformer [29.415900191169587]
トランスフォーマーエンコーダデコーダアーキテクチャと呼ばれる強力な注意メカニズムに基づく新しいトラッカーネットワークを提案する。
形状非依存アンカーに基づくターゲットのローカライズを行うトランスの出力を用いて,分類と回帰ヘッドを設計する。
本手法は最先端のアルゴリズムに好適に作用する。
論文 参考訳(メタデータ) (2021-05-09T02:32:28Z) - Transformer Tracking [76.96796612225295]
相関は追跡分野において、特に人気のあるシャム系トラッカーにおいて重要な役割を果たす。
本研究は,注意のみを用いてテンプレートと検索領域を効果的に結合した,新しい注意型特徴融合ネットワークを提案する。
実験により、TransTは6つの挑戦的なデータセットで非常に有望な結果が得られます。
論文 参考訳(メタデータ) (2021-03-29T09:06:55Z) - TrackFormer: Multi-Object Tracking with Transformers [92.25832593088421]
TrackFormerはエンコーダデコーダトランスフォーマーアーキテクチャに基づくエンドツーエンドのマルチオブジェクトトラッキングおよびセグメンテーションモデルです。
新しいトラッククエリはDETRオブジェクト検出器によって生成され、時間とともに対応するオブジェクトの位置を埋め込む。
trackformerは新しいトラッキング・バイ・アテンションパラダイムでフレーム間のシームレスなデータ関連付けを実現する。
論文 参考訳(メタデータ) (2021-01-07T18:59:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。