論文の概要: Correlation-Embedded Transformer Tracking: A Single-Branch Framework
- arxiv url: http://arxiv.org/abs/2401.12743v2
- Date: Tue, 3 Sep 2024 06:13:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-04 21:31:42.137455
- Title: Correlation-Embedded Transformer Tracking: A Single-Branch Framework
- Title(参考訳): 相関埋め込み型トランスフォーマートラッキング:シングルブランチフレームワーク
- Authors: Fei Xie, Wankou Yang, Chunyu Wang, Lei Chu, Yue Cao, Chao Ma, Wenjun Zeng,
- Abstract要約: 本稿では,トランスにインスパイアされた新しい単一ブランチ追跡フレームワークを提案する。
Siameseのような特徴抽出とは異なり、トラッカーは機能ネットワークの複数の層にクロスイメージ特徴相関を深く埋め込む。
出力機能は、追加の相関ステップなしでターゲット位置を予測するために直接使用できる。
- 参考スコア(独自算出の注目度): 69.0798277313574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing robust and discriminative appearance models has been a long-standing research challenge in visual object tracking. In the prevalent Siamese-based paradigm, the features extracted by the Siamese-like networks are often insufficient to model the tracked targets and distractor objects, thereby hindering them from being robust and discriminative simultaneously. While most Siamese trackers focus on designing robust correlation operations, we propose a novel single-branch tracking framework inspired by the transformer. Unlike the Siamese-like feature extraction, our tracker deeply embeds cross-image feature correlation in multiple layers of the feature network. By extensively matching the features of the two images through multiple layers, it can suppress non-target features, resulting in target-aware feature extraction. The output features can be directly used for predicting target locations without additional correlation steps. Thus, we reformulate the two-branch Siamese tracking as a conceptually simple, fully transformer-based Single-Branch Tracking pipeline, dubbed SBT. After conducting an in-depth analysis of the SBT baseline, we summarize many effective design principles and propose an improved tracker dubbed SuperSBT. SuperSBT adopts a hierarchical architecture with a local modeling layer to enhance shallow-level features. A unified relation modeling is proposed to remove complex handcrafted layer pattern designs. SuperSBT is further improved by masked image modeling pre-training, integrating temporal modeling, and equipping with dedicated prediction heads. Thus, SuperSBT outperforms the SBT baseline by 4.7%,3.0%, and 4.5% AUC scores in LaSOT, TrackingNet, and GOT-10K. Notably, SuperSBT greatly raises the speed of SBT from 37 FPS to 81 FPS. Extensive experiments show that our method achieves superior results on eight VOT benchmarks.
- Abstract(参考訳): 堅牢で差別的な外観モデルを開発することは、視覚オブジェクト追跡における長年の研究課題である。
シームズ・ベースのパラダイムでは、シームズ・ネットワークによって抽出された特徴は、追跡対象や妨害対象をモデル化するには不十分であり、それによってそれらが堅牢で差別的であることを妨げている。
多くのシームズトラッカーはロバストな相関演算の設計に重点を置いているが、この変換器にインスパイアされた新しい単一ブランチ追跡フレームワークを提案する。
Siameseのような特徴抽出とは異なり、トラッカーは機能ネットワークの複数の層にクロスイメージ特徴相関を深く埋め込む。
複数の層を通して2つの画像の特徴を広範囲にマッチングすることにより、ターゲットでない特徴を抑えることができ、その結果、ターゲットを意識した特徴抽出が実現される。
出力機能は、追加の相関ステップなしでターゲット位置を予測するために直接使用することができる。
そこで我々は、SBTと呼ばれる概念的にシンプルで完全なトランスフォーマーベースのシングルブランチ追跡パイプラインとして、2分岐のシームズ追跡を再構成する。
SBTベースラインの詳細な解析を行い、多くの効率的な設計原則を要約し、SuperSBTと呼ばれる改良されたトラッカーを提案する。
SuperSBTは、浅層機能を強化するために、局所モデリング層を備えた階層アーキテクチャを採用する。
複雑な手作りのパターンパターンを除去する統合関係モデルを提案する。
SuperSBTはさらに、マスク付き画像モデリング事前トレーニング、時間モデリングの統合、専用の予測ヘッドの装備により改善されている。
これにより、SuperSBTはSBTベースラインの4.7%、3.0%、AUCスコアの4.5%をLaSOT、TrackingNet、GOT-10Kで上回っている。
特にSuperSBTは、SBTの速度を37FPSから81FPSに大幅に向上させる。
大規模な実験により,本手法は8つのVOTベンチマークにおいて優れた結果が得られることが示された。
関連論文リスト
- Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。
DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。
複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文 参考訳(メタデータ) (2024-03-26T12:31:58Z) - BACTrack: Building Appearance Collection for Aerial Tracking [13.785254511683966]
Appearance Collection Trackingの構築 オンラインでターゲットテンプレートの動的コレクションを構築し、堅牢なトラッキングを実現するために効率的なマルチテンプレートマッチングを実行する。
BACTrackは、4つの挑戦的な空中トラッキングベンチマークで最高パフォーマンスを達成し、1つのGPU上で87FPSを超える驚くべきスピードを維持している。
論文 参考訳(メタデータ) (2023-12-11T05:55:59Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Joint Feature Learning and Relation Modeling for Tracking: A One-Stream
Framework [76.70603443624012]
特徴学習と関係モデリングを統合した新しい一ストリーム追跡(OSTrack)フレームワークを提案する。
このようにして、相互誘導により識別的目標指向特徴を動的に抽出することができる。
OSTrackは、複数のベンチマークで最先端のパフォーマンスを実現しており、特に、ワンショットトラッキングベンチマークのGOT-10kでは印象的な結果を示している。
論文 参考訳(メタデータ) (2022-03-22T18:37:11Z) - Correlation-Aware Deep Tracking [83.51092789908677]
本稿では,自己/横断的意図に着想を得た,新たなターゲット依存型特徴ネットワークを提案する。
我々のネットワークは機能ネットワークの複数の層にクロスイメージの特徴相関を深く埋め込んでいる。
我々のモデルは、豊富な未ペア画像に対して柔軟に事前訓練が可能であり、既存の手法よりも顕著に高速な収束をもたらす。
論文 参考訳(メタデータ) (2022-03-03T11:53:54Z) - TrTr: Visual Tracking with Transformer [29.415900191169587]
トランスフォーマーエンコーダデコーダアーキテクチャと呼ばれる強力な注意メカニズムに基づく新しいトラッカーネットワークを提案する。
形状非依存アンカーに基づくターゲットのローカライズを行うトランスの出力を用いて,分類と回帰ヘッドを設計する。
本手法は最先端のアルゴリズムに好適に作用する。
論文 参考訳(メタデータ) (2021-05-09T02:32:28Z) - Multiple Convolutional Features in Siamese Networks for Object Tracking [13.850110645060116]
Multiple Features-Siamese Tracker (MFST) は、ロバストな追跡のために複数の階層的な特徴マップを利用する新しい追跡アルゴリズムである。
MFSTは、オブジェクト追跡ベンチマークにおいて標準のサイメムトラッカーよりも高いトラッキング精度を達成する。
論文 参考訳(メタデータ) (2021-03-01T08:02:27Z) - MFST: Multi-Features Siamese Tracker [13.850110645060116]
Multi-Features Siamese Tracker (MFST) は、複数の階層的特徴マップを利用して、頑健な類似性追跡を行う新しい追跡アルゴリズムである。
MFSTは、標準的なシームズトラッカーを含む最先端のトラッカーよりも高いトラッキング精度を実現している。
論文 参考訳(メタデータ) (2021-03-01T07:18:32Z) - Object Tracking through Residual and Dense LSTMs [67.98948222599849]
LSTM(Long Short-Term Memory)リカレントニューラルネットワークに基づくディープラーニングベースのトラッカーが、強力な代替手段として登場した。
DenseLSTMはResidualおよびRegular LSTMより優れ、ニュアンセに対する高いレジリエンスを提供する。
ケーススタディは、他のトラッカーの堅牢性を高めるために残差ベースRNNの採用を支援する。
論文 参考訳(メタデータ) (2020-06-22T08:20:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。