論文の概要: High-Performance Transformer Tracking
- arxiv url: http://arxiv.org/abs/2203.13533v1
- Date: Fri, 25 Mar 2022 09:33:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-28 13:28:00.592083
- Title: High-Performance Transformer Tracking
- Title(参考訳): 高性能変圧器追跡
- Authors: Xin Chen, Bin Yan, Jiawen Zhu, Dong Wang, Huchuan Lu
- Abstract要約: 本稿では,シームズ様特徴抽出バックボーンをベースとしたTransformer Tracking(TransT)手法,設計した注意に基づく融合機構,分類と回帰ヘッドを提案する。
実験の結果,TransT法とTransT-M法は7つの一般的なデータセットに対して有望な結果が得られることがわかった。
- 参考スコア(独自算出の注目度): 74.07751002861802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Correlation has a critical role in the tracking field, especially in recent
popular Siamese-based trackers. The correlation operation is a simple fusion
manner to consider the similarity between the template and the search region.
However, the correlation operation is a local linear matching process, losing
semantic information and falling into local optimum easily, which may be the
bottleneck of designing high-accuracy tracking algorithms. In this work, to
determine whether a better feature fusion method exists than correlation, a
novel attention-based feature fusion network, inspired by Transformer, is
presented. This network effectively combines the template and the search region
features using attention. Specifically, the proposed method includes an
ego-context augment module based on self-attention and a cross-feature augment
module based on cross-attention. First, we present a Transformer tracking
(named TransT) method based on the Siamese-like feature extraction backbone,
the designed attention-based fusion mechanism, and the classification and
regression head. Based on the TransT baseline, we further design a segmentation
branch to generate an accurate mask. Finally, we propose a stronger version of
TransT by extending TransT with a multi-template design and an IoU prediction
head, named TransT-M. Experiments show that our TransT and TransT-M methods
achieve promising results on seven popular datasets. Code and models are
available at https://github.com/chenxin-dlut/TransT-M.
- Abstract(参考訳): 相関は、特に最近のシームズベースのトラッカーにおいて、追跡分野において重要な役割を担っている。
相関演算はテンプレートと検索領域の類似性を考慮するための単純な融合手法である。
しかし、相関処理は局所線形マッチングプロセスであり、意味情報を失い、局所最適に陥りやすいため、高精度追跡アルゴリズムの設計のボトルネックとなる可能性がある。
本研究では, 相関よりも優れた特徴融合法が存在するかどうかを判断するために, Transformer にインスパイアされた新しい注目型特徴融合ネットワークを提案する。
このネットワークは、テンプレートと注目を用いて検索領域の特徴を効果的に結合する。
具体的には、自己アテンションに基づくエゴコンテキスト拡張モジュールと、クロスアテンションに基づくクロス機能拡張モジュールを含む。
まず、シームズ様の特徴抽出バックボーン、設計された注意に基づく融合機構、分類と回帰ヘッドに基づくトランスフォーマートラッキング(TransT)手法を提案する。
TransTベースラインに基づいて,正確なマスクを生成するセグメンテーションブランチを設計する。
最後に,マルチテンプレート設計によるTransTの拡張と,TransT-Mと命名されたIoU予測ヘッドにより,TransTのより強力なバージョンを提案する。
実験の結果,TransT法とTransT-M法は7つの一般的なデータセットに対して有望な結果が得られることがわかった。
コードとモデルはhttps://github.com/chenxin-dlut/transt-mで入手できる。
関連論文リスト
- Hierarchical Cross-modal Transformer for RGB-D Salient Object Detection [6.385624548310884]
本稿では,新しいマルチモーダルトランスである階層型クロスモーダルトランス (HCT) を提案する。
2つのモードから全てのパッチを直接接続する以前のマルチモーダル変圧器とは異なり、クロスモーダル相補性は階層的に検討する。
本稿では,Transformer (FPT) 用のFeature Pyramidモジュールを提案する。
論文 参考訳(メタデータ) (2023-02-16T03:23:23Z) - OST: Efficient One-stream Network for 3D Single Object Tracking in Point Clouds [6.661881950861012]
本稿では,従来のシームズネットワークで発生した相関操作を回避するために,インスタンスレベルのエンコーディングの強みを活かした新しい一ストリームネットワークを提案する。
提案手法は,クラス固有のトラッキングだけでなく,より少ない計算と高い効率でクラスに依存しないトラッキングを実現する。
論文 参考訳(メタデータ) (2022-10-16T12:31:59Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - TransCMD: Cross-Modal Decoder Equipped with Transformer for RGB-D
Salient Object Detection [86.94578023985677]
本研究では,グローバルな情報アライメントと変革の観点から,この課題を再考する。
具体的には、トランスCMD(TransCMD)は、複数のクロスモーダル統合ユニットをカスケードして、トップダウントランスフォーマーベースの情報伝達経路を構築する。
7つのRGB-D SODベンチマークデータセットの実験結果から、単純な2ストリームエンコーダデコーダフレームワークが、最先端のCNNベースの手法を超越できることが示されている。
論文 参考訳(メタデータ) (2021-12-04T15:45:34Z) - TransMVSNet: Global Context-aware Multi-view Stereo Network with
Transformers [6.205844084751411]
マルチビューステレオ(MVS)における特徴マッチングの探索に基づくTransMVSNetを提案する。
本研究では,FMT(Feature Matching Transformer)を提案する。
提案手法は,DTUデータセット,タンク・アンド・テンプルベンチマーク,およびBlendedMVSデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-11-29T15:31:49Z) - TrTr: Visual Tracking with Transformer [29.415900191169587]
トランスフォーマーエンコーダデコーダアーキテクチャと呼ばれる強力な注意メカニズムに基づく新しいトラッカーネットワークを提案する。
形状非依存アンカーに基づくターゲットのローカライズを行うトランスの出力を用いて,分類と回帰ヘッドを設計する。
本手法は最先端のアルゴリズムに好適に作用する。
論文 参考訳(メタデータ) (2021-05-09T02:32:28Z) - TransMOT: Spatial-Temporal Graph Transformer for Multiple Object
Tracking [74.82415271960315]
映像内の物体間の空間的・時間的相互作用を効率的にモデル化するソリューションであるTransMOTを提案する。
TransMOTは従来のTransformerよりも計算効率が高いだけでなく、トラッキング精度も向上している。
提案手法は、MOT15、MOT16、MOT17、MOT20を含む複数のベンチマークデータセット上で評価される。
論文 参考訳(メタデータ) (2021-04-01T01:49:05Z) - Transformer Tracking [76.96796612225295]
相関は追跡分野において、特に人気のあるシャム系トラッカーにおいて重要な役割を果たす。
本研究は,注意のみを用いてテンプレートと検索領域を効果的に結合した,新しい注意型特徴融合ネットワークを提案する。
実験により、TransTは6つの挑戦的なデータセットで非常に有望な結果が得られます。
論文 参考訳(メタデータ) (2021-03-29T09:06:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。