論文の概要: Learning Tracking Representations via Dual-Branch Fully Transformer
Networks
- arxiv url: http://arxiv.org/abs/2112.02571v1
- Date: Sun, 5 Dec 2021 13:44:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-07 16:33:48.853843
- Title: Learning Tracking Representations via Dual-Branch Fully Transformer
Networks
- Title(参考訳): デュアルブランチ完全変圧器ネットワークによる学習追跡表現
- Authors: Fei Xie, Chunyu Wang, Guangting Wang, Wankou Yang, Wenjun Zeng
- Abstract要約: 追従のためのトランスフォーマーのみをベースとした,シームズ型デュアルブランチネットワークを提案する。
注目ウィンドウ内の他のパッチとのマッチング結果に基づいて,各パッチの特徴ベクトルを抽出する。
この手法は、最高の性能の方法として、より良い結果または同等の結果を得る。
- 参考スコア(独自算出の注目度): 82.21771581817937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a Siamese-like Dual-branch network based on solely Transformers
for tracking. Given a template and a search image, we divide them into
non-overlapping patches and extract a feature vector for each patch based on
its matching results with others within an attention window. For each token, we
estimate whether it contains the target object and the corresponding size. The
advantage of the approach is that the features are learned from matching, and
ultimately, for matching. So the features are aligned with the object tracking
task. The method achieves better or comparable results as the best-performing
methods which first use CNN to extract features and then use Transformer to
fuse them. It outperforms the state-of-the-art methods on the GOT-10k and
VOT2020 benchmarks. In addition, the method achieves real-time inference speed
(about $40$ fps) on one GPU. The code and models will be released.
- Abstract(参考訳): 追従のためのトランスフォーマーのみに基づくシームズ型デュアルブランチネットワークを提案する。
テンプレートと検索画像が与えられた場合、これらを重複しないパッチに分割し、アテンションウィンドウ内の他者とのマッチング結果に基づいて各パッチの特徴ベクトルを抽出する。
各トークンに対して、ターゲットオブジェクトと対応するサイズを含むかどうかを推定する。
このアプローチの利点は、機能がマッチングから学び、最終的にはマッチングから学べることである。
したがって、機能はオブジェクト追跡タスクと一致している。
このメソッドは、まずcnnを使って特徴を抽出し、次にtransformerを使ってそれらを融合させる、最高のパフォーマンスのメソッドとして、より良い結果または比較結果を得る。
GOT-10kとVOT2020ベンチマークでは最先端の手法よりも優れている。
さらに、この手法は1つのGPU上でのリアルタイム推論速度(約40$fps)を達成する。
コードとモデルがリリースされます。
関連論文リスト
- Tracking Meets LoRA: Faster Training, Larger Model, Stronger Performance [87.19164603145056]
実験室レベルの資源をトラッキングするための大規模ViTモデルのパワーを明らかにする手法であるLoRATを提案する。
私たちの作業の本質は、推論レイテンシを追加することなく、モデルパラメータの小さなサブセットを微調整するテクニックであるLoRAを適用することです。
我々はPETRの適応のみに基づくアンカーフリーヘッドを設計し、計算オーバーヘッドを少なくして性能を向上する。
論文 参考訳(メタデータ) (2024-03-08T11:41:48Z) - Revisiting Color-Event based Tracking: A Unified Network, Dataset, and
Metric [53.88188265943762]
上記の機能を同時に実現したCEUTrack(Color-Event Unified Tracking)のためのシングルステージバックボーンネットワークを提案する。
提案するCEUTrackはシンプルで,効率的で,75FPS以上を達成し,新たなSOTA性能を実現している。
論文 参考訳(メタデータ) (2022-11-20T16:01:31Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Green Hierarchical Vision Transformer for Masked Image Modeling [54.14989750044489]
階層型視覚変換器(ViT)を用いたマスク付き画像モデリングのための効率的な手法を提案する。
グループウィンドウのアテンションスキームは,ディバイド・アンド・コンカエ戦略に従って設計する。
グループ化されたパッチに対する注意の全体的なコストを最小限に抑えるため、動的プログラミングアルゴリズムによるグループ化戦略をさらに改善する。
論文 参考訳(メタデータ) (2022-05-26T17:34:42Z) - MatchFormer: Interleaving Attention in Transformers for Feature Matching [31.175513306917654]
そこで我々は,MatchFormerと呼ばれる新しい階層型抽出・整合変換器を提案する。
特徴抽出のための自己注意と特徴マッチングのための相互注意をインターリーブし、人間の直感的な抽出・マッチング方式を実現する。
この戦略のおかげで、MatchFormerは効率、堅牢性、精度のマルチウィンソリューションである。
論文 参考訳(メタデータ) (2022-03-17T22:49:14Z) - TrTr: Visual Tracking with Transformer [29.415900191169587]
トランスフォーマーエンコーダデコーダアーキテクチャと呼ばれる強力な注意メカニズムに基づく新しいトラッカーネットワークを提案する。
形状非依存アンカーに基づくターゲットのローカライズを行うトランスの出力を用いて,分類と回帰ヘッドを設計する。
本手法は最先端のアルゴリズムに好適に作用する。
論文 参考訳(メタデータ) (2021-05-09T02:32:28Z) - Transformer Tracking [76.96796612225295]
相関は追跡分野において、特に人気のあるシャム系トラッカーにおいて重要な役割を果たす。
本研究は,注意のみを用いてテンプレートと検索領域を効果的に結合した,新しい注意型特徴融合ネットワークを提案する。
実験により、TransTは6つの挑戦的なデータセットで非常に有望な結果が得られます。
論文 参考訳(メタデータ) (2021-03-29T09:06:55Z) - Single Object Tracking through a Fast and Effective Single-Multiple
Model Convolutional Neural Network [0.0]
最近の最先端の(SOTA)アプローチは、エリア内の他のオブジェクトとターゲットを区別するために重い構造を持つマッチングネットワークを取ることに基づいて提案されています。
本稿では,これまでのアプローチとは対照的に,一つのショットで物体の位置を識別できる特殊なアーキテクチャを提案する。
提示されたトラッカーは、1080tiで最大120 fps$の超高速で、挑戦的な状況でsomaと比較してパフォーマンスする。
論文 参考訳(メタデータ) (2021-03-28T11:02:14Z) - Multiple Convolutional Features in Siamese Networks for Object Tracking [13.850110645060116]
Multiple Features-Siamese Tracker (MFST) は、ロバストな追跡のために複数の階層的な特徴マップを利用する新しい追跡アルゴリズムである。
MFSTは、オブジェクト追跡ベンチマークにおいて標準のサイメムトラッカーよりも高いトラッキング精度を達成する。
論文 参考訳(メタデータ) (2021-03-01T08:02:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。