論文の概要: Correlation-Embedded Transformer Tracking: A Single-Branch Framework
- arxiv url: http://arxiv.org/abs/2401.12743v1
- Date: Tue, 23 Jan 2024 13:20:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 15:45:31.559470
- Title: Correlation-Embedded Transformer Tracking: A Single-Branch Framework
- Title(参考訳): 相関埋め込み変換器追跡:単一ブランチフレームワーク
- Authors: Fei Xie, Wankou Yang, Chunyu Wang, Lei Chu, Yue Cao, Chao Ma, Wenjun
Zeng
- Abstract要約: 本稿では,トランスにインスパイアされた新しい単一ブランチ追跡フレームワークを提案する。
Siameseのような特徴抽出とは異なり、トラッカーは機能ネットワークの複数の層にクロスイメージ特徴相関を深く埋め込む。
出力機能は、追加の相関ステップなしでターゲット位置を予測するために直接使用できる。
- 参考スコア(独自算出の注目度): 72.54388547501499
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing robust and discriminative appearance models has been a
long-standing research challenge in visual object tracking. In the prevalent
Siamese-based paradigm, the features extracted by the Siamese-like networks are
often insufficient to model the tracked targets and distractor objects, thereby
hindering them from being robust and discriminative simultaneously. While most
Siamese trackers focus on designing robust correlation operations, we propose a
novel single-branch tracking framework inspired by the transformer. Unlike the
Siamese-like feature extraction, our tracker deeply embeds cross-image feature
correlation in multiple layers of the feature network. By extensively matching
the features of the two images through multiple layers, it can suppress
non-target features, resulting in target-aware feature extraction. The output
features can be directly used for predicting target locations without
additional correlation steps. Thus, we reformulate the two-branch Siamese
tracking as a conceptually simple, fully transformer-based Single-Branch
Tracking pipeline, dubbed SBT. After conducting an in-depth analysis of the SBT
baseline, we summarize many effective design principles and propose an improved
tracker dubbed SuperSBT. SuperSBT adopts a hierarchical architecture with a
local modeling layer to enhance shallow-level features. A unified relation
modeling is proposed to remove complex handcrafted layer pattern designs.
SuperSBT is further improved by masked image modeling pre-training, integrating
temporal modeling, and equipping with dedicated prediction heads. Thus,
SuperSBT outperforms the SBT baseline by 4.7%,3.0%, and 4.5% AUC scores in
LaSOT, TrackingNet, and GOT-10K. Notably, SuperSBT greatly raises the speed of
SBT from 37 FPS to 81 FPS. Extensive experiments show that our method achieves
superior results on eight VOT benchmarks.
- Abstract(参考訳): 堅牢で識別可能な外観モデルの開発は、視覚オブジェクト追跡における長年の研究課題である。
一般的なシャム語に基づくパラダイムでは、シャム語のようなネットワークによって抽出された特徴はしばしば追跡された対象と気晴らし対象をモデル化するのに不十分であり、それによってそれらはロバストかつ差別的になるのを妨げている。
siameseトラッカの多くはロバストな相関操作の設計に重点を置いているが、トランスフォーマーに触発された新しいシングルブランチトラッキングフレームワークを提案する。
Siameseのような特徴抽出とは異なり、トラッカーは機能ネットワークの複数の層にクロスイメージ特徴相関を深く埋め込む。
複数のレイヤを通して2つのイメージの特徴を広範囲に一致させることで、ターゲットでない特徴を抑制し、ターゲットを認識できる特徴抽出を可能にする。
出力機能は、追加の相関ステップなしでターゲット位置を予測するために直接使用できる。
そこで我々は,概念的にシンプルで完全トランスフォーマーベースの単分岐追尾パイプラインsbtとして,二分岐シアーム追跡を再構成する。
SBTベースラインの詳細な解析を行い、多くの効率的な設計原則を要約し、SuperSBTと呼ばれる改良されたトラッカーを提案する。
SuperSBTは、浅層機能を強化するために、局所モデリング層を備えた階層アーキテクチャを採用する。
複雑な手作りのパターンパターンを除去する統合関係モデルを提案する。
supersbtはさらに、マスク画像モデリングの事前トレーニング、時間モデルの統合、専用の予測ヘッドの装備によって改善されている。
これにより、SuperSBTはSBTベースラインの4.7%、3.0%、AUCスコアの4.5%をLaSOT、TrackingNet、GOT-10Kで上回っている。
特にSuperSBTは、SBTの速度を37FPSから81FPSに大幅に向上させる。
広範な実験により8つのvotベンチマークにおいて優れた結果が得られた。
関連論文リスト
- Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。
DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。
複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文 参考訳(メタデータ) (2024-03-26T12:31:58Z) - BACTrack: Building Appearance Collection for Aerial Tracking [13.785254511683966]
Appearance Collection Trackingの構築 オンラインでターゲットテンプレートの動的コレクションを構築し、堅牢なトラッキングを実現するために効率的なマルチテンプレートマッチングを実行する。
BACTrackは、4つの挑戦的な空中トラッキングベンチマークで最高パフォーマンスを達成し、1つのGPU上で87FPSを超える驚くべきスピードを維持している。
論文 参考訳(メタデータ) (2023-12-11T05:55:59Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Joint Feature Learning and Relation Modeling for Tracking: A One-Stream
Framework [76.70603443624012]
特徴学習と関係モデリングを統合した新しい一ストリーム追跡(OSTrack)フレームワークを提案する。
このようにして、相互誘導により識別的目標指向特徴を動的に抽出することができる。
OSTrackは、複数のベンチマークで最先端のパフォーマンスを実現しており、特に、ワンショットトラッキングベンチマークのGOT-10kでは印象的な結果を示している。
論文 参考訳(メタデータ) (2022-03-22T18:37:11Z) - Correlation-Aware Deep Tracking [83.51092789908677]
本稿では,自己/横断的意図に着想を得た,新たなターゲット依存型特徴ネットワークを提案する。
我々のネットワークは機能ネットワークの複数の層にクロスイメージの特徴相関を深く埋め込んでいる。
我々のモデルは、豊富な未ペア画像に対して柔軟に事前訓練が可能であり、既存の手法よりも顕著に高速な収束をもたらす。
論文 参考訳(メタデータ) (2022-03-03T11:53:54Z) - TrTr: Visual Tracking with Transformer [29.415900191169587]
トランスフォーマーエンコーダデコーダアーキテクチャと呼ばれる強力な注意メカニズムに基づく新しいトラッカーネットワークを提案する。
形状非依存アンカーに基づくターゲットのローカライズを行うトランスの出力を用いて,分類と回帰ヘッドを設計する。
本手法は最先端のアルゴリズムに好適に作用する。
論文 参考訳(メタデータ) (2021-05-09T02:32:28Z) - Multiple Convolutional Features in Siamese Networks for Object Tracking [13.850110645060116]
Multiple Features-Siamese Tracker (MFST) は、ロバストな追跡のために複数の階層的な特徴マップを利用する新しい追跡アルゴリズムである。
MFSTは、オブジェクト追跡ベンチマークにおいて標準のサイメムトラッカーよりも高いトラッキング精度を達成する。
論文 参考訳(メタデータ) (2021-03-01T08:02:27Z) - MFST: Multi-Features Siamese Tracker [13.850110645060116]
Multi-Features Siamese Tracker (MFST) は、複数の階層的特徴マップを利用して、頑健な類似性追跡を行う新しい追跡アルゴリズムである。
MFSTは、標準的なシームズトラッカーを含む最先端のトラッカーよりも高いトラッキング精度を実現している。
論文 参考訳(メタデータ) (2021-03-01T07:18:32Z) - Object Tracking through Residual and Dense LSTMs [67.98948222599849]
LSTM(Long Short-Term Memory)リカレントニューラルネットワークに基づくディープラーニングベースのトラッカーが、強力な代替手段として登場した。
DenseLSTMはResidualおよびRegular LSTMより優れ、ニュアンセに対する高いレジリエンスを提供する。
ケーススタディは、他のトラッカーの堅牢性を高めるために残差ベースRNNの採用を支援する。
論文 参考訳(メタデータ) (2020-06-22T08:20:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。