論文の概要: Learning Spatial-Frequency Transformer for Visual Object Tracking
- arxiv url: http://arxiv.org/abs/2208.08829v1
- Date: Thu, 18 Aug 2022 13:46:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-19 13:46:04.855228
- Title: Learning Spatial-Frequency Transformer for Visual Object Tracking
- Title(参考訳): 物体追跡のための空間周波数変換器の学習
- Authors: Chuanming Tang, Xiao Wang, Yuanchao Bai, Zhe Wu, Jianlin Zhang,
Yongmei Huang
- Abstract要約: 最近のトラッカーはTransformerを採用して、広く使われているResNetを新しいバックボーンネットワークとして組み合わせたり置き換えたりしている。
これらの操作は、ターゲットオブジェクトの空間的先行を無視し、最適以下の結果をもたらす可能性があると信じている。
本稿では,GPHA(Spatial Prior and High- frequency emphasis Attention)を同時にモデル化した空間周波数変換器を提案する。
- 参考スコア(独自算出の注目度): 15.750739748843744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent trackers adopt the Transformer to combine or replace the widely used
ResNet as their new backbone network. Although their trackers work well in
regular scenarios, however, they simply flatten the 2D features into a sequence
to better match the Transformer. We believe these operations ignore the spatial
prior of the target object which may lead to sub-optimal results only. In
addition, many works demonstrate that self-attention is actually a low-pass
filter, which is independent of input features or key/queries. That is to say,
it may suppress the high-frequency component of the input features and preserve
or even amplify the low-frequency information. To handle these issues, in this
paper, we propose a unified Spatial-Frequency Transformer that models the
Gaussian spatial Prior and High-frequency emphasis Attention (GPHA)
simultaneously. To be specific, Gaussian spatial prior is generated using dual
Multi-Layer Perceptrons (MLPs) and injected into the similarity matrix produced
by multiplying Query and Key features in self-attention. The output will be fed
into a Softmax layer and then decomposed into two components, i.e., the direct
signal and high-frequency signal. The low- and high-pass branches are rescaled
and combined to achieve all-pass, therefore, the high-frequency features will
be protected well in stacked self-attention layers. We further integrate the
Spatial-Frequency Transformer into the Siamese tracking framework and propose a
novel tracking algorithm, termed SFTransT. The cross-scale fusion based
SwinTransformer is adopted as the backbone, and also a multi-head
cross-attention module is used to boost the interaction between search and
template features. The output will be fed into the tracking head for target
localization. Extensive experiments on both short-term and long-term tracking
benchmarks all demonstrate the effectiveness of our proposed framework.
- Abstract(参考訳): 最近のトラッカーはTransformerを採用して、広く使われているResNetを新しいバックボーンネットワークとして組み合わせたり置き換えたりしている。
彼らのトラッカーは通常のシナリオではうまく機能するが、トランスフォーマーによく合うように2D機能をフラットにしている。
これらの操作は、ターゲットオブジェクトの空間的先行を無視するものであり、それが準最適結果に繋がる可能性がある。
さらに、多くの作品では、セルフアテンションは実際には低パスフィルタであり、入力特徴やキー/キューとは無関係であることが示されている。
つまり、入力特徴の高周波成分を抑制し、低周波情報を保存したり、増幅したりする。
本稿では,ガウス空間優先度と高周波強調度(GPHA)を同時にモデル化した空間周波数変換器を提案する。
具体的には、二重多層パーセプトロン(mlps)を用いてガウス空間前駆体を生成し、クエリとキー特徴を自己アテンションで乗算した類似性行列に注入する。
出力はソフトマックス層に供給され、その後、直接信号と高周波信号の2つの成分に分解される。
低域と高域の分岐は再スケールされ、オールパスを実現するために結合されるため、高域の特徴は積み重ねられた自己保持層でよく保護される。
我々はさらに、Spatial-Frequency Transformerをシームズ追跡フレームワークに統合し、SFTransTと呼ばれる新しい追跡アルゴリズムを提案する。
クロススケールフュージョンベースのSwinTransformerがバックボーンとして採用され、マルチヘッドのクロスアテンションモジュールが検索機能とテンプレート機能の間の相互作用を高めるために使用される。
出力はターゲットのローカライゼーションのためにトラッキングヘッドに入力される。
短期追跡と長期追跡の両ベンチマークによる大規模な実験はいずれも,提案フレームワークの有効性を実証している。
関連論文リスト
- A Hybrid Transformer-Mamba Network for Single Image Deraining [70.64069487982916]
既存のデラリング変換器では、固定レンジウィンドウやチャネル次元に沿って自己アテンション機構を採用している。
本稿では,多分岐型トランスフォーマー・マンバネットワーク(Transformer-Mamba Network,TransMamba Network,Transformer-Mamba Network)を提案する。
論文 参考訳(メタデータ) (2024-08-31T10:03:19Z) - U-shaped Transformer: Retain High Frequency Context in Time Series
Analysis [0.5710971447109949]
本稿では,変圧器の低域特性を考察し,その利点を取り入れようと試みる。
パッチマージと分割操作を導入し、異なるスケールの機能を抽出し、より大きなデータセットを使用してトランスフォーマーバックボーンを完全に活用する。
実験により、比較的低コストで複数のデータセットをまたいだ高度なレベルでモデルが動作できることが実証された。
論文 参考訳(メタデータ) (2023-07-18T07:15:26Z) - STMixer: A One-Stage Sparse Action Detector [48.0614066856134]
我々はSTMixerと呼ばれる新しいワンステージアクション検出器を提案する。
我々は,STMixerに識別ビデオ機能セットをマイニングする柔軟性を付与する,クエリベースの適応型特徴サンプリングモジュールを提案する。
AVA, UCF101-24, JHMDB のデータセットの最先端結果を得た。
論文 参考訳(メタデータ) (2023-03-28T10:47:06Z) - Multi-Scale Wavelet Transformer for Face Forgery Detection [43.33712402517951]
顔偽造検出のためのマルチスケールウェーブレットトランスフォーマフレームワークを提案する。
周波数に基づく空間的注意は、空間的特徴抽出器をフォージェリトレースに集中させるよう誘導するように設計されている。
空間的特徴と周波数特徴を融合させるため,モーダリティ間の注意が提案されている。
論文 参考訳(メタデータ) (2022-10-08T03:39:36Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Inception Transformer [151.939077819196]
インセプショントランスフォーマー(iFormer)は、視覚データ中の高周波数情報と低周波情報の両方で包括的特徴を学習する。
我々は、iFormerを一連の視覚タスクでベンチマークし、画像分類、COCO検出、ADE20Kセグメンテーションにおいて優れた性能を発揮することを示した。
論文 参考訳(メタデータ) (2022-05-25T17:59:54Z) - High-Performance Transformer Tracking [74.07751002861802]
本稿では,シームズ様特徴抽出バックボーンをベースとしたTransformer Tracking(TransT)手法,設計した注意に基づく融合機構,分類と回帰ヘッドを提案する。
実験の結果,TransT法とTransT-M法は7つの一般的なデータセットに対して有望な結果が得られることがわかった。
論文 参考訳(メタデータ) (2022-03-25T09:33:29Z) - MFGNet: Dynamic Modality-Aware Filter Generation for RGB-T Tracking [72.65494220685525]
可視データと熱データ間のメッセージ通信を促進するために,新しい動的モダリティ対応フィルタ生成モジュール(MFGNet)を提案する。
我々は、2つの独立ネットワークを持つ動的モダリティ対応フィルタを生成し、その可視フィルタとサーマルフィルタをそれぞれ、対応する入力特徴写像上で動的畳み込み演算を行う。
重閉塞,高速移動,外見による問題に対処するため,新たな方向認識型目標誘導型アテンション機構を活用することで,共同で局所的・グローバル検索を行うことを提案する。
論文 参考訳(メタデータ) (2021-07-22T03:10:51Z) - Transformer Tracking [76.96796612225295]
相関は追跡分野において、特に人気のあるシャム系トラッカーにおいて重要な役割を果たす。
本研究は,注意のみを用いてテンプレートと検索領域を効果的に結合した,新しい注意型特徴融合ネットワークを提案する。
実験により、TransTは6つの挑戦的なデータセットで非常に有望な結果が得られます。
論文 参考訳(メタデータ) (2021-03-29T09:06:55Z) - Efficient Two-Stream Network for Violence Detection Using Separable
Convolutional LSTM [0.0]
Separable Convolutional LSTM(SepConvLSTM)と予め訓練されたMobileNetを活用した効率的な2ストリームディープラーニングアーキテクチャを提案する。
SepConvLSTMは、ConvLSTMの各ゲートの畳み込み操作を深さ方向に分離可能な畳み込みに置き換えて構築されます。
我々のモデルは、大きくて挑戦的なrwf-2000データセットの精度を2%以上上回っている。
論文 参考訳(メタデータ) (2021-02-21T12:01:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。