論文の概要: TrTr: Visual Tracking with Transformer
- arxiv url: http://arxiv.org/abs/2105.03817v1
- Date: Sun, 9 May 2021 02:32:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 14:56:05.405758
- Title: TrTr: Visual Tracking with Transformer
- Title(参考訳): TrTr: Transformerを使ったビジュアルトラッキング
- Authors: Moju Zhao and Kei Okada and Masayuki Inaba
- Abstract要約: トランスフォーマーエンコーダデコーダアーキテクチャと呼ばれる強力な注意メカニズムに基づく新しいトラッカーネットワークを提案する。
形状非依存アンカーに基づくターゲットのローカライズを行うトランスの出力を用いて,分類と回帰ヘッドを設計する。
本手法は最先端のアルゴリズムに好適に作用する。
- 参考スコア(独自算出の注目度): 29.415900191169587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Template-based discriminative trackers are currently the dominant tracking
methods due to their robustness and accuracy, and the Siamese-network-based
methods that depend on cross-correlation operation between features extracted
from template and search images show the state-of-the-art tracking performance.
However, general cross-correlation operation can only obtain relationship
between local patches in two feature maps. In this paper, we propose a novel
tracker network based on a powerful attention mechanism called Transformer
encoder-decoder architecture to gain global and rich contextual
interdependencies. In this new architecture, features of the template image is
processed by a self-attention module in the encoder part to learn strong
context information, which is then sent to the decoder part to compute
cross-attention with the search image features processed by another
self-attention module. In addition, we design the classification and regression
heads using the output of Transformer to localize target based on
shape-agnostic anchor. We extensively evaluate our tracker TrTr, on VOT2018,
VOT2019, OTB-100, UAV, NfS, TrackingNet, and LaSOT benchmarks and our method
performs favorably against state-of-the-art algorithms. Training code and
pretrained models are available at https://github.com/tongtybj/TrTr.
- Abstract(参考訳): テンプレートベースの識別トラッカーは、その頑健さと精度から現在主流のトラッキング手法であり、テンプレートと検索画像から抽出した特徴間の相互相関操作に依存するシームズネットワークベースの手法は、最先端のトラッキング性能を示している。
しかし、一般相関演算は2つの特徴写像における局所パッチ間の関係しか得られない。
本稿では,トランスコーダ・デコーダアーキテクチャと呼ばれる強力な注意機構に基づく新しいトラッカネットワークを提案する。
本発明の新しいアーキテクチャでは、テンプレート画像の特徴をエンコーダ部の自己保持モジュールで処理し、強いコンテキスト情報を学び、デコーダ部に送信して、他の自己保持モジュールによって処理された検索画像特徴との相互注意を算出する。
さらに,形状非依存アンカーに基づいてターゲットをローカライズするトランスの出力を用いて,分類と回帰ヘッドを設計する。
トラッカーTrTrTr, VOT2018, VOT2019, OTB-100, UAV, NfS, TrackingNet, LaSOTベンチマークを広範囲に評価した。
トレーニングコードと事前トレーニングされたモデルは、https://github.com/tongtybj/trtr.comで入手できる。
関連論文リスト
- With a Little Help from your own Past: Prototypical Memory Networks for
Image Captioning [47.96387857237473]
我々は、他のトレーニングサンプルを処理しながら得られたアクティベーションに注意を向けるネットワークを考案した。
私たちのメモリは、プロトタイプベクトルの定義を通じて過去のキーと値の分布をモデル化します。
本研究では,エンコーダ・デコーダ変換器の性能を3.7 CIDErポイント向上できることを示す。
論文 参考訳(メタデータ) (2023-08-23T18:53:00Z) - Compact Transformer Tracker with Correlative Masked Modeling [16.234426179567837]
Transformerフレームワークは、ビジュアルオブジェクト追跡において優れたパフォーマンスを示している。
最近の進歩は、より優れた情報収集のための注意機構の変種を探究することに焦点を当てている。
本稿では,バニラ自己注意構造が情報収集に十分であることを示す。
論文 参考訳(メタデータ) (2023-01-26T04:58:08Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - High-Performance Transformer Tracking [74.07751002861802]
本稿では,シームズ様特徴抽出バックボーンをベースとしたTransformer Tracking(TransT)手法,設計した注意に基づく融合機構,分類と回帰ヘッドを提案する。
実験の結果,TransT法とTransT-M法は7つの一般的なデータセットに対して有望な結果が得られることがわかった。
論文 参考訳(メタデータ) (2022-03-25T09:33:29Z) - Learning Tracking Representations via Dual-Branch Fully Transformer
Networks [82.21771581817937]
追従のためのトランスフォーマーのみをベースとした,シームズ型デュアルブランチネットワークを提案する。
注目ウィンドウ内の他のパッチとのマッチング結果に基づいて,各パッチの特徴ベクトルを抽出する。
この手法は、最高の性能の方法として、より良い結果または同等の結果を得る。
論文 参考訳(メタデータ) (2021-12-05T13:44:33Z) - Learning Dynamic Compact Memory Embedding for Deformable Visual Object
Tracking [82.34356879078955]
本稿では,セグメント化に基づく変形可能な視覚追跡手法の識別を強化するために,コンパクトなメモリ埋め込みを提案する。
DAVIS 2017ベンチマークでは,D3SやSiamMaskなどのセグメンテーションベースのトラッカーよりも優れている。
論文 参考訳(メタデータ) (2021-11-23T03:07:12Z) - Transformer Tracking [76.96796612225295]
相関は追跡分野において、特に人気のあるシャム系トラッカーにおいて重要な役割を果たす。
本研究は,注意のみを用いてテンプレートと検索領域を効果的に結合した,新しい注意型特徴融合ネットワークを提案する。
実験により、TransTは6つの挑戦的なデータセットで非常に有望な結果が得られます。
論文 参考訳(メタデータ) (2021-03-29T09:06:55Z) - Learning Spatio-Appearance Memory Network for High-Performance Visual
Tracking [79.80401607146987]
既存のオブジェクトトラッキングは通常、フレーム間の視覚的ターゲットにマッチするバウンディングボックスベースのテンプレートを学習する。
本稿では,局所時間メモリネットワークを備え,正確な時空間対応を学習するセグメンテーションに基づくトラッキングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-09-21T08:12:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。