論文の概要: Transformer Tracking with Cyclic Shifting Window Attention
- arxiv url: http://arxiv.org/abs/2205.03806v1
- Date: Sun, 8 May 2022 07:46:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-10 15:49:22.310727
- Title: Transformer Tracking with Cyclic Shifting Window Attention
- Title(参考訳): 周期シフトウィンドウによる変圧器追跡
- Authors: Zikai Song and Junqing Yu and Yi-Ping Phoebe Chen and Wei Yang
- Abstract要約: 視覚オブジェクト追跡のためのマルチスケール巡回シフトウィンドウアテンションを備えた新しいトランスフォーマーアーキテクチャを提案する。
本稿では,本手法の優れた性能を示すとともに,新しい最先端記録を5つの挑戦的データセットに設定する。
- 参考スコア(独自算出の注目度): 17.73494432795304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer architecture has been showing its great strength in visual object
tracking, for its effective attention mechanism. Existing transformer-based
approaches adopt the pixel-to-pixel attention strategy on flattened image
features and unavoidably ignore the integrity of objects. In this paper, we
propose a new transformer architecture with multi-scale cyclic shifting window
attention for visual object tracking, elevating the attention from pixel to
window level. The cross-window multi-scale attention has the advantage of
aggregating attention at different scales and generates the best fine-scale
match for the target object. Furthermore, the cyclic shifting strategy brings
greater accuracy by expanding the window samples with positional information,
and at the same time saves huge amounts of computational power by removing
redundant calculations. Extensive experiments demonstrate the superior
performance of our method, which also sets the new state-of-the-art records on
five challenging datasets, along with the VOT2020, UAV123, LaSOT, TrackingNet,
and GOT-10k benchmarks.
- Abstract(参考訳): トランスフォーマーアーキテクチャは、その効果的な注意機構のために、視覚的オブジェクト追跡において大きな強みを示している。
既存の変換器ベースのアプローチでは、フラット化された画像特徴に対してピクセル間注目戦略を採用しており、オブジェクトの完全性は避けられない。
本稿では,視覚オブジェクト追跡のための多スケール周期シフトウィンドウアテンションを備えた新しいトランスフォーマーアーキテクチャを提案する。
クロスウインドウのマルチスケールアテンションは、異なるスケールでのアグリゲーションの利点があり、対象対象物に最適なファインスケールマッチを生成する。
さらに、巡回シフト戦略は、位置情報でウィンドウサンプルを拡張することにより精度を高め、同時に冗長な計算を除去して膨大な計算力を節約する。
VOT2020, UAV123, LaSOT, TrackingNet, GOT-10kベンチマークとともに, 5つの挑戦的データセットに新しい最先端のレコードをセットする。
関連論文リスト
- ReViT: Enhancing Vision Transformers Feature Diversity with Attention Residual Connections [8.372189962601077]
視覚変換器(ViT)自己保持機構は、深い層に特徴的崩壊を特徴とする。
本稿では,ViTに基づくアーキテクチャを改良するための新たな注意学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-17T14:44:10Z) - Vision Transformer with Quadrangle Attention [76.35955924137986]
窓面に基づく注意を一般的な四角形定式化に拡張する新しい四角形注意法(QA)を提案する。
提案手法では,既定のウィンドウを対象の四角形に変換するために,変換行列を予測し,エンドツーエンドで学習可能な四角形回帰モジュールを用いる。
QAをプレーンかつ階層的な視覚変換器に統合し、QFormerという名の新しいアーキテクチャを作成します。
論文 参考訳(メタデータ) (2023-03-27T11:13:50Z) - SGDViT: Saliency-Guided Dynamic Vision Transformer for UAV Tracking [12.447854608181833]
本研究は、UAV追跡のための新しいサリエンシ誘導動的視覚変換器(SGDViT)を提案する。
提案手法は,クロスコリレーション操作を洗練させるために,タスク固有の新たなオブジェクト・サリエンシ・マイニング・ネットワークを設計する。
軽量な塩分フィルタリング変換器は、さらに塩分情報を洗練し、外観情報に焦点を当てる。
論文 参考訳(メタデータ) (2023-03-08T05:01:00Z) - Compact Transformer Tracker with Correlative Masked Modeling [16.234426179567837]
Transformerフレームワークは、ビジュアルオブジェクト追跡において優れたパフォーマンスを示している。
最近の進歩は、より優れた情報収集のための注意機構の変種を探究することに焦点を当てている。
本稿では,バニラ自己注意構造が情報収集に十分であることを示す。
論文 参考訳(メタデータ) (2023-01-26T04:58:08Z) - Skip-Attention: Improving Vision Transformers by Paying Less Attention [55.47058516775423]
視覚計算変換器(ViT)は、すべての層で高価な自己注意操作を使用する。
また,SkipAtを提案する。SkipAtは,先行層から自己注意を再利用して1層以上の注意を近似する手法である。
本稿では,画像の分類と自己教師型学習,ADE20Kのセマンティックセグメンテーション,SIDDの画像デノイング,DAVISのビデオデノナイズにおける手法の有効性を示す。
論文 参考訳(メタデータ) (2023-01-05T18:59:52Z) - Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文 参考訳(メタデータ) (2022-06-21T17:33:53Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - TransCamP: Graph Transformer for 6-DoF Camera Pose Estimation [77.09542018140823]
本稿では、カメラ再配置問題に対処するため、グラフトランスフォーマーバックボーン、すなわちTransCamPを用いたニューラルネットワークアプローチを提案する。
TransCamPは、画像の特徴、カメラポーズ情報、フレーム間の相対的なカメラモーションを、エンコードされたグラフ属性に効果的に融合する。
論文 参考訳(メタデータ) (2021-05-28T19:08:43Z) - TransMOT: Spatial-Temporal Graph Transformer for Multiple Object
Tracking [74.82415271960315]
映像内の物体間の空間的・時間的相互作用を効率的にモデル化するソリューションであるTransMOTを提案する。
TransMOTは従来のTransformerよりも計算効率が高いだけでなく、トラッキング精度も向上している。
提案手法は、MOT15、MOT16、MOT17、MOT20を含む複数のベンチマークデータセット上で評価される。
論文 参考訳(メタデータ) (2021-04-01T01:49:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。