論文の概要: SeqTrack: Sequence to Sequence Learning for Visual Object Tracking
- arxiv url: http://arxiv.org/abs/2304.14394v2
- Date: Thu, 17 Aug 2023 07:32:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 23:56:34.030215
- Title: SeqTrack: Sequence to Sequence Learning for Visual Object Tracking
- Title(参考訳): seqtrack: 視覚オブジェクト追跡のためのシーケンスからシーケンスへの学習
- Authors: Xin Chen, Houwen Peng, Dong Wang, Huchuan Lu, Han Hu
- Abstract要約: 視覚追跡のためのシーケンシャル・ツー・シーケンス学習フレームワークSeqTrackを提案する。
視覚的トラッキングをシーケンス生成問題とみなし、自動回帰的にオブジェクト境界ボックスを予測する。
- 参考スコア(独自算出の注目度): 79.90729193686835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a new sequence-to-sequence learning framework for
visual tracking, dubbed SeqTrack. It casts visual tracking as a sequence
generation problem, which predicts object bounding boxes in an autoregressive
fashion. This is different from prior Siamese trackers and transformer
trackers, which rely on designing complicated head networks, such as
classification and regression heads. SeqTrack only adopts a simple
encoder-decoder transformer architecture. The encoder extracts visual features
with a bidirectional transformer, while the decoder generates a sequence of
bounding box values autoregressively with a causal transformer. The loss
function is a plain cross-entropy. Such a sequence learning paradigm not only
simplifies tracking framework, but also achieves competitive performance on
benchmarks. For instance, SeqTrack gets 72.5% AUC on LaSOT, establishing a new
state-of-the-art performance. Code and models are available at here.
- Abstract(参考訳): 本稿では,視覚追跡のためのシーケンシャル・ツー・シーケンス学習フレームワークseqtrackを提案する。
視覚追跡をシーケンス生成問題として、自己回帰的な方法でオブジェクトバウンディングボックスを予測する。
従来のシームズトラッカーやトランスフォーマートラッカーとは違い、分類や回帰ヘッドといった複雑なヘッドネットワークの設計に依存している。
seqtrackは単純なエンコーダ-デコーダトランスフォーマアーキテクチャのみを採用している。
エンコーダは双方向変換器で視覚特徴を抽出し、デコーダは因果変換器で自動回帰的に境界ボックス値列を生成する。
損失関数はプレーンなクロスエントロピーである。
このようなシーケンス学習パラダイムは、トラッキングフレームワークを単純化するだけでなく、ベンチマークで競争力のあるパフォーマンスを実現する。
例えば、SeqTrackはLaSOT上で72.5%のAUCを獲得し、新しい最先端のパフォーマンスを確立している。
コードとモデルはここで入手できる。
関連論文リスト
- Compact Transformer Tracker with Correlative Masked Modeling [16.234426179567837]
Transformerフレームワークは、ビジュアルオブジェクト追跡において優れたパフォーマンスを示している。
最近の進歩は、より優れた情報収集のための注意機構の変種を探究することに焦点を当てている。
本稿では,バニラ自己注意構造が情報収集に十分であることを示す。
論文 参考訳(メタデータ) (2023-01-26T04:58:08Z) - Efficient Visual Tracking with Exemplar Transformers [98.62550635320514]
本稿では,リアルタイム物体追跡のための効率的な変換器であるExemplar Transformerを紹介する。
Exemplar Transformerレイヤを組み込んだビジュアルトラッカーであるE.T.Trackは、CPU上で47fpsで動作する。
これは、他のトランスモデルよりも最大8倍高速である。
論文 参考訳(メタデータ) (2021-12-17T18:57:54Z) - TrTr: Visual Tracking with Transformer [29.415900191169587]
トランスフォーマーエンコーダデコーダアーキテクチャと呼ばれる強力な注意メカニズムに基づく新しいトラッカーネットワークを提案する。
形状非依存アンカーに基づくターゲットのローカライズを行うトランスの出力を用いて,分類と回帰ヘッドを設計する。
本手法は最先端のアルゴリズムに好適に作用する。
論文 参考訳(メタデータ) (2021-05-09T02:32:28Z) - Learning Spatio-Temporal Transformer for Visual Tracking [108.11680070733598]
本稿では,エンコーダ・デコーダ変換器をキーコンポーネントとする新しいトラッキングアーキテクチャを提案する。
メソッド全体がエンドツーエンドであり、コサインウィンドウやバウンディングボックススムーシングのような後処理ステップは不要である。
提案されたトラッカーは、Siam R-CNNよりも6倍速いリアルタイム速度を実行しながら、5つのチャレンジングな短期および長期ベンチマークで最先端のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-03-31T15:19:19Z) - Transformer Meets Tracker: Exploiting Temporal Context for Robust Visual
Tracking [47.205979159070445]
個々のビデオフレームをブリッジし、堅牢なオブジェクト追跡のためのトランスフォーマーアーキテクチャを通じて、時間的コンテキストを探索する。
自然言語処理タスクにおける変換器の古典的な使用とは異なり、エンコーダとデコーダを2つの並列分岐に分離する。
本手法は,有意な追跡ベンチマークに関する最新の記録を複数設定する。
論文 参考訳(メタデータ) (2021-03-22T09:20:05Z) - TrackFormer: Multi-Object Tracking with Transformers [92.25832593088421]
TrackFormerはエンコーダデコーダトランスフォーマーアーキテクチャに基づくエンドツーエンドのマルチオブジェクトトラッキングおよびセグメンテーションモデルです。
新しいトラッククエリはDETRオブジェクト検出器によって生成され、時間とともに対応するオブジェクトの位置を埋め込む。
trackformerは新しいトラッキング・バイ・アテンションパラダイムでフレーム間のシームレスなデータ関連付けを実現する。
論文 参考訳(メタデータ) (2021-01-07T18:59:29Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。