論文の概要: Siamese Transformer Pyramid Networks for Real-Time UAV Tracking
- arxiv url: http://arxiv.org/abs/2110.08822v1
- Date: Sun, 17 Oct 2021 13:48:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 18:13:25.332805
- Title: Siamese Transformer Pyramid Networks for Real-Time UAV Tracking
- Title(参考訳): リアルタイムUAV追跡のためのシームズ変圧器ピラミッド網
- Authors: Daitao Xing, Nikolaos Evangeliou, Athanasios Tsoukalas and Anthony
Tzes
- Abstract要約: 本稿では,CNNとTransformerアーキテクチャの両方の利点を継承するSiamTPN(Siamese Transformer Pyramid Network)を紹介する。
航空機と一般的な追跡ベンチマークの両方の実験は、高速で動作しながら競争的な結果を得る。
我々の最速の可変トラッカーは、1つのCPUコアで30Hz以上で動作し、LaSOTデータセットで58.1%のAUCスコアを得る。
- 参考スコア(独自算出の注目度): 3.0969191504482243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent object tracking methods depend upon deep networks or convoluted
architectures. Most of those trackers can hardly meet real-time processing
requirements on mobile platforms with limited computing resources. In this
work, we introduce the Siamese Transformer Pyramid Network (SiamTPN), which
inherits the advantages from both CNN and Transformer architectures.
Specifically, we exploit the inherent feature pyramid of a lightweight network
(ShuffleNetV2) and reinforce it with a Transformer to construct a robust
target-specific appearance model. A centralized architecture with lateral cross
attention is developed for building augmented high-level feature maps. To avoid
the computation and memory intensity while fusing pyramid representations with
the Transformer, we further introduce the pooling attention module, which
significantly reduces memory and time complexity while improving the
robustness. Comprehensive experiments on both aerial and prevalent tracking
benchmarks achieve competitive results while operating at high speed,
demonstrating the effectiveness of SiamTPN. Moreover, our fastest variant
tracker operates over 30 Hz on a single CPU-core and obtaining an AUC score of
58.1% on the LaSOT dataset. Source codes are available at
https://github.com/RISCNYUAD/SiamTPNTracker
- Abstract(参考訳): 最近のオブジェクト追跡手法はディープネットワークや畳み込みアーキテクチャに依存している。
これらのトラッカーのほとんどは、限られたコンピューティングリソースでモバイルプラットフォームでリアルタイム処理の要件を満たせない。
本稿では,CNNとTransformerアーキテクチャの両方の利点を継承するSiamTPN(Siamese Transformer Pyramid Network)を紹介する。
具体的には、軽量ネットワーク(ShuffleNetV2)の固有の特徴ピラミッドを利用してトランスフォーマーで強化し、ロバストなターゲット固有の外観モデルを構築する。
横方向のクロスアテンションを付加した集中型アーキテクチャは高階特徴写像を構築するために開発された。
トランスフォーマーでピラミッド表現を融合させながら計算やメモリ強度を回避するため,ロバスト性を改善しながらメモリと時間の複雑さを著しく低減するプールアテンションモジュールを導入する。
SiamTPNの有効性を実証し, 高速動作中の空中および高頻度追跡ベンチマークの総合的な実験結果を得た。
さらに、1つのCPUコア上で30Hz以上で動作し、LaSOTデータセット上で58.1%のAUCスコアを取得する。
ソースコードはhttps://github.com/RISCNYUAD/SiamTPNTrackerで入手できる。
関連論文リスト
- Correlation-Embedded Transformer Tracking: A Single-Branch Framework [69.0798277313574]
本稿では,トランスにインスパイアされた新しい単一ブランチ追跡フレームワークを提案する。
Siameseのような特徴抽出とは異なり、トラッカーは機能ネットワークの複数の層にクロスイメージ特徴相関を深く埋め込む。
出力機能は、追加の相関ステップなしでターゲット位置を予測するために直接使用できる。
論文 参考訳(メタデータ) (2024-01-23T13:20:57Z) - Separable Self and Mixed Attention Transformers for Efficient Object
Tracking [3.9160947065896803]
本稿では,軽量トラッキングのための自己・混在型アテンショントランスフォーマーアーキテクチャを提案する。
これらの貢献により、提案された軽量トラッカーは、トランスフォーマーベースのバックボーンとヘッドモジュールを、初めて同時にデプロイする。
シミュレーションの結果、SMATはGOT10k、TrackingNet、LaSOT、NfS30、UAV123、AVisTデータセット上の関連する軽量トラッカーのパフォーマンスを上回っている。
論文 参考訳(メタデータ) (2023-09-07T19:23:02Z) - Exploring Lightweight Hierarchical Vision Transformers for Efficient
Visual Tracking [69.89887818921825]
HiTは、さまざまなデバイス上で高速に動作可能な、効率的なトラッキングモデルの新たなファミリーだ。
HiTはLaSOTベンチマークで64.6%のAUCを達成した。
論文 参考訳(メタデータ) (2023-08-14T02:51:34Z) - Efficient Joint Detection and Multiple Object Tracking with Spatially
Aware Transformer [0.8808021343665321]
マルチオブジェクト追跡のための軽量かつ高効率な関節検出・追跡パイプラインを提案する。
CNNの代わりにトランスフォーマーベースのバックボーンによって駆動される。
修正の結果、TransTrackの全体的なモデルサイズを58.73%、複雑さを78.72%削減しました。
論文 参考訳(メタデータ) (2022-11-09T07:19:33Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Efficient Visual Tracking via Hierarchical Cross-Attention Transformer [82.92565582642847]
本稿では,HCAT と呼ばれる階層型クロスアテンショントランスを用いた効率的な追跡手法を提案する。
当社のモデルは、GPUで約195fps、CPUで45fps、NVidia Jetson AGX XavierのエッジAIプラットフォームで55fpsで動作します。
論文 参考訳(メタデータ) (2022-03-25T09:45:27Z) - LiteTransformerSearch: Training-free On-device Search for Efficient
Autoregressive Language Models [34.673688610935876]
モデルトレーニングを必要とせずに、レイテンシとパープレクシリティが最前線に現れることを示す。
我々は,多種多様なデバイス上での軽量トランスフォーマーサーチ (LTS) の評価を行った。
最大2倍のレイテンシでTransformer-XLのパープレキシティを実現することができることを示す。
論文 参考訳(メタデータ) (2022-03-04T02:10:43Z) - Efficient Visual Tracking with Exemplar Transformers [98.62550635320514]
本稿では,リアルタイム物体追跡のための効率的な変換器であるExemplar Transformerを紹介する。
Exemplar Transformerレイヤを組み込んだビジュアルトラッカーであるE.T.Trackは、CPU上で47fpsで動作する。
これは、他のトランスモデルよりも最大8倍高速である。
論文 参考訳(メタデータ) (2021-12-17T18:57:54Z) - Trident Pyramid Networks: The importance of processing at the feature
pyramid level for better object detection [50.008529403150206]
我々はTrident Pyramid Network (TPN)と呼ばれる新しいコアアーキテクチャを提案する。
TPNはより深い設計を可能にし、コミュニケーションベースの処理と自己処理のバランスを改善する。
TPNコアをオブジェクト検出ベンチマークで使用した場合,BifPNベースラインを1.5 APで上回り,一貫した改善が見られた。
論文 参考訳(メタデータ) (2021-10-08T09:59:59Z) - Searching for Efficient Multi-Stage Vision Transformers [42.0565109812926]
Vision Transformer (ViT)は、自然言語処理のためのTransformerがコンピュータビジョンタスクに適用可能であることを示す。
ViT-ResNASは、ニューラルネットワークサーチ(NAS)で設計された効率的なマルチステージViTアーキテクチャである
論文 参考訳(メタデータ) (2021-09-01T22:37:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。