論文の概要: Transformer Meets Tracker: Exploiting Temporal Context for Robust Visual
Tracking
- arxiv url: http://arxiv.org/abs/2103.11681v1
- Date: Mon, 22 Mar 2021 09:20:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-23 14:28:59.961484
- Title: Transformer Meets Tracker: Exploiting Temporal Context for Robust Visual
Tracking
- Title(参考訳): transformer meets tracker: 時間的コンテキストを堅牢なビジュアルトラッキングに活用する
- Authors: Ning Wang and Wengang Zhou and Jie Wang and Houqaing Li
- Abstract要約: 個々のビデオフレームをブリッジし、堅牢なオブジェクト追跡のためのトランスフォーマーアーキテクチャを通じて、時間的コンテキストを探索する。
自然言語処理タスクにおける変換器の古典的な使用とは異なり、エンコーダとデコーダを2つの並列分岐に分離する。
本手法は,有意な追跡ベンチマークに関する最新の記録を複数設定する。
- 参考スコア(独自算出の注目度): 47.205979159070445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In video object tracking, there exist rich temporal contexts among successive
frames, which have been largely overlooked in existing trackers. In this work,
we bridge the individual video frames and explore the temporal contexts across
them via a transformer architecture for robust object tracking. Different from
classic usage of the transformer in natural language processing tasks, we
separate its encoder and decoder into two parallel branches and carefully
design them within the Siamese-like tracking pipelines. The transformer encoder
promotes the target templates via attention-based feature reinforcement, which
benefits the high-quality tracking model generation. The transformer decoder
propagates the tracking cues from previous templates to the current frame,
which facilitates the object searching process. Our transformer-assisted
tracking framework is neat and trained in an end-to-end manner. With the
proposed transformer, a simple Siamese matching approach is able to outperform
the current top-performing trackers. By combining our transformer with the
recent discriminative tracking pipeline, our method sets several new
state-of-the-art records on prevalent tracking benchmarks.
- Abstract(参考訳): ビデオオブジェクトトラッキングでは、逐次的なフレーム間に豊富な時間的コンテキストが存在し、既存のトラッカーではほとんど見落とされている。
本研究では,個々の映像フレームを橋渡しし,ロバストな物体追跡のためのトランスフォーマーアーキテクチャを用いて時間的文脈を探索する。
自然言語処理タスクにおけるトランスフォーマーの古典的な使用とは異なり、エンコーダとデコーダを2つの並列ブランチに分離し、シームズのような追跡パイプライン内で慎重に設計する。
トランスエンコーダは、注目に基づく特徴強化を通じてターゲットテンプレートを促進し、高品質なトラッキングモデル生成に有効である。
トランスデコーダは、トラッキングキューを以前のテンプレートから現在のフレームに伝播させ、オブジェクト検索プロセスを容易にする。
我々のトランスフォーマー支援トラッキングフレームワークは、エンドツーエンドできちんとトレーニングされています。
提案したトランスでは、単純なシームズマッチングアプローチが現在のトップパフォーマンストラッカーより優れている。
我々のトランスフォーマーと最近の識別追跡パイプラインを組み合わせることで,本手法では,先行追跡ベンチマークにおいて新たな最新記録を複数設定した。
関連論文リスト
- AViTMP: A Tracking-Specific Transformer for Single-Branch Visual Tracking [17.133735660335343]
本稿では,AViTMP(Adaptive ViT Model Prediction Tracker)を提案する。
この方法は、初めて識別モデルで単一ブランチネットワークをブリッジする。
AViTMPは、特に長期追跡とロバスト性の観点から、最先端のパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2023-10-30T13:48:04Z) - Unified Sequence-to-Sequence Learning for Single- and Multi-Modal Visual Object Tracking [64.28025685503376]
SeqTrackは、ビジュアルトラッキングをシーケンス生成タスクとしてキャストし、オブジェクト境界ボックスを自動回帰的に予測する。
SeqTrackv2は補助モダリティのための統一インターフェースとタスクを指定するためのタスクプロンプトトークンのセットを統合している。
このシーケンス学習パラダイムは、トラッキングフレームワークを単純化するだけでなく、14の挑戦的なベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-04-27T17:56:29Z) - Tracking by Associating Clips [110.08925274049409]
本稿では,オブジェクト関連をクリップワイドマッチングとして扱う方法を検討する。
我々の新しい視点では、1つの長いビデオシーケンスを複数のショートクリップとみなし、そのトラックはクリップ内とクリップ間の両方で実行される。
この新しい手法の利点は2つある。まず、ビデオチャンキングによって中断フレームをバイパスできるため、エラーの蓄積や伝播の追跡に頑健である。
次に、クリップワイドマッチング中に複数のフレーム情報を集約し、現在のフレームワイドマッチングよりも高精度な長距離トラックアソシエーションを実現する。
論文 参考訳(メタデータ) (2022-12-20T10:33:17Z) - ProContEXT: Exploring Progressive Context Transformer for Tracking [20.35886416084831]
既存のVisual Object Tracking (VOT)は、テンプレートとして第1フレームのターゲット領域のみを取る。
これにより、フレーム間のオブジェクトの外観の変化を考慮できないため、素早く変化し、混雑するシーンでトラッキングが必然的に失敗する。
私たちはプログレッシブコンテキストでフレームワークを改訂しました。
Transformer Tracker (ProContEXT) は空間的・時間的文脈を利用して物体の動きの軌跡を予測する。
論文 参考訳(メタデータ) (2022-10-27T14:47:19Z) - Efficient Visual Tracking with Exemplar Transformers [98.62550635320514]
本稿では,リアルタイム物体追跡のための効率的な変換器であるExemplar Transformerを紹介する。
Exemplar Transformerレイヤを組み込んだビジュアルトラッカーであるE.T.Trackは、CPU上で47fpsで動作する。
これは、他のトランスモデルよりも最大8倍高速である。
論文 参考訳(メタデータ) (2021-12-17T18:57:54Z) - TrTr: Visual Tracking with Transformer [29.415900191169587]
トランスフォーマーエンコーダデコーダアーキテクチャと呼ばれる強力な注意メカニズムに基づく新しいトラッカーネットワークを提案する。
形状非依存アンカーに基づくターゲットのローカライズを行うトランスの出力を用いて,分類と回帰ヘッドを設計する。
本手法は最先端のアルゴリズムに好適に作用する。
論文 参考訳(メタデータ) (2021-05-09T02:32:28Z) - Learning Spatio-Temporal Transformer for Visual Tracking [108.11680070733598]
本稿では,エンコーダ・デコーダ変換器をキーコンポーネントとする新しいトラッキングアーキテクチャを提案する。
メソッド全体がエンドツーエンドであり、コサインウィンドウやバウンディングボックススムーシングのような後処理ステップは不要である。
提案されたトラッカーは、Siam R-CNNよりも6倍速いリアルタイム速度を実行しながら、5つのチャレンジングな短期および長期ベンチマークで最先端のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-03-31T15:19:19Z) - TrackFormer: Multi-Object Tracking with Transformers [92.25832593088421]
TrackFormerはエンコーダデコーダトランスフォーマーアーキテクチャに基づくエンドツーエンドのマルチオブジェクトトラッキングおよびセグメンテーションモデルです。
新しいトラッククエリはDETRオブジェクト検出器によって生成され、時間とともに対応するオブジェクトの位置を埋め込む。
trackformerは新しいトラッキング・バイ・アテンションパラダイムでフレーム間のシームレスなデータ関連付けを実現する。
論文 参考訳(メタデータ) (2021-01-07T18:59:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。