Fugu-MT 論文翻訳(概要): Siamese Transformer Pyramid Networks for Real-Time UAV Tracking

論文の概要: Siamese Transformer Pyramid Networks for Real-Time UAV Tracking

arxiv url: http://arxiv.org/abs/2110.08822v1
Date: Sun, 17 Oct 2021 13:48:31 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-19 18:13:25.332805
Title: Siamese Transformer Pyramid Networks for Real-Time UAV Tracking
Title（参考訳）: リアルタイムUAV追跡のためのシームズ変圧器ピラミッド網
Authors: Daitao Xing, Nikolaos Evangeliou, Athanasios Tsoukalas and Anthony Tzes
Abstract要約: 本稿では,CNNとTransformerアーキテクチャの両方の利点を継承するSiamTPN(Siamese Transformer Pyramid Network)を紹介する。航空機と一般的な追跡ベンチマークの両方の実験は、高速で動作しながら競争的な結果を得る。我々の最速の可変トラッカーは、1つのCPUコアで30Hz以上で動作し、LaSOTデータセットで58.1%のAUCスコアを得る。
参考スコア（独自算出の注目度）: 3.0969191504482243
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent object tracking methods depend upon deep networks or convoluted architectures. Most of those trackers can hardly meet real-time processing requirements on mobile platforms with limited computing resources. In this work, we introduce the Siamese Transformer Pyramid Network (SiamTPN), which inherits the advantages from both CNN and Transformer architectures. Specifically, we exploit the inherent feature pyramid of a lightweight network (ShuffleNetV2) and reinforce it with a Transformer to construct a robust target-specific appearance model. A centralized architecture with lateral cross attention is developed for building augmented high-level feature maps. To avoid the computation and memory intensity while fusing pyramid representations with the Transformer, we further introduce the pooling attention module, which significantly reduces memory and time complexity while improving the robustness. Comprehensive experiments on both aerial and prevalent tracking benchmarks achieve competitive results while operating at high speed, demonstrating the effectiveness of SiamTPN. Moreover, our fastest variant tracker operates over 30 Hz on a single CPU-core and obtaining an AUC score of 58.1% on the LaSOT dataset. Source codes are available at https://github.com/RISCNYUAD/SiamTPNTracker
Abstract（参考訳）: 最近のオブジェクト追跡手法はディープネットワークや畳み込みアーキテクチャに依存している。これらのトラッカーのほとんどは、限られたコンピューティングリソースでモバイルプラットフォームでリアルタイム処理の要件を満たせない。本稿では,CNNとTransformerアーキテクチャの両方の利点を継承するSiamTPN(Siamese Transformer Pyramid Network)を紹介する。具体的には、軽量ネットワーク(ShuffleNetV2)の固有の特徴ピラミッドを利用してトランスフォーマーで強化し、ロバストなターゲット固有の外観モデルを構築する。横方向のクロスアテンションを付加した集中型アーキテクチャは高階特徴写像を構築するために開発された。トランスフォーマーでピラミッド表現を融合させながら計算やメモリ強度を回避するため,ロバスト性を改善しながらメモリと時間の複雑さを著しく低減するプールアテンションモジュールを導入する。 SiamTPNの有効性を実証し, 高速動作中の空中および高頻度追跡ベンチマークの総合的な実験結果を得た。さらに、1つのCPUコア上で30Hz以上で動作し、LaSOTデータセット上で58.1%のAUCスコアを取得する。ソースコードはhttps://github.com/RISCNYUAD/SiamTPNTrackerで入手できる。

関連論文リスト

Two-stream Beats One-stream: Asymmetric Siamese Network for Efficient Visual Tracking [54.124445709376154]
効率的な追跡を行うために,textbfAsymTrack という新しい非対称なシームズトラッカーを提案する。このアーキテクチャに基づいて、検索機能に重要な手がかりを注入する効率的なテンプレート変調機構を考案する。実験によると、AsymTrackは異なるプラットフォーム間で、より優れたスピード精度のトレードオフを提供する。
論文参考訳（メタデータ） (2025-03-01T14:44:54Z)
Correlation-Embedded Transformer Tracking: A Single-Branch Framework [69.0798277313574]
本稿では,トランスにインスパイアされた新しい単一ブランチ追跡フレームワークを提案する。 Siameseのような特徴抽出とは異なり、トラッカーは機能ネットワークの複数の層にクロスイメージ特徴相関を深く埋め込む。出力機能は、追加の相関ステップなしでターゲット位置を予測するために直接使用できる。
論文参考訳（メタデータ） (2024-01-23T13:20:57Z)
Separable Self and Mixed Attention Transformers for Efficient Object Tracking [3.9160947065896803]
本稿では,軽量トラッキングのための自己・混在型アテンショントランスフォーマーアーキテクチャを提案する。これらの貢献により、提案された軽量トラッカーは、トランスフォーマーベースのバックボーンとヘッドモジュールを、初めて同時にデプロイする。シミュレーションの結果、SMATはGOT10k、TrackingNet、LaSOT、NfS30、UAV123、AVisTデータセット上の関連する軽量トラッカーのパフォーマンスを上回っている。
論文参考訳（メタデータ） (2023-09-07T19:23:02Z)
Exploring Lightweight Hierarchical Vision Transformers for Efficient Visual Tracking [69.89887818921825]
HiTは、さまざまなデバイス上で高速に動作可能な、効率的なトラッキングモデルの新たなファミリーだ。 HiTはLaSOTベンチマークで64.6%のAUCを達成した。
論文参考訳（メタデータ） (2023-08-14T02:51:34Z)
Efficient Joint Detection and Multiple Object Tracking with Spatially Aware Transformer [0.8808021343665321]
マルチオブジェクト追跡のための軽量かつ高効率な関節検出・追跡パイプラインを提案する。 CNNの代わりにトランスフォーマーベースのバックボーンによって駆動される。修正の結果、TransTrackの全体的なモデルサイズを58.73%、複雑さを78.72%削減しました。
論文参考訳（メタデータ） (2022-11-09T07:19:33Z)
Strong-TransCenter: Improved Multi-Object Tracking based on Transformers with Dense Representations [0.6144680854063939]
トランスフォーマーネットワークは近年、様々なコンピュータビジョンタスクにおける最先端の性能を超えることができる多くの分野の研究の焦点となっている。マルチプルオブジェクトトラッキング(MOT)のタスクでは、トランスフォーマーのパワーを活用することは、いまだに探索されていない。この領域における先駆的な取り組みの中で、トランスフォーマーベースのMOTアーキテクチャで、オブジェクトクエリが密集しているTransCenterは、適切なランタイムを維持しながら、例外的なトラッキング機能を示した。本稿では,トラック・バイ・ディテクト・パラダイムに基づく後処理機構を提案する。
論文参考訳（メタデータ） (2022-10-24T19:47:58Z)
Joint Spatial-Temporal and Appearance Modeling with Transformer for Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文参考訳（メタデータ） (2022-05-31T01:19:18Z)
Efficient Visual Tracking via Hierarchical Cross-Attention Transformer [82.92565582642847]
本稿では,HCAT と呼ばれる階層型クロスアテンショントランスを用いた効率的な追跡手法を提案する。当社のモデルは、GPUで約195fps、CPUで45fps、NVidia Jetson AGX XavierのエッジAIプラットフォームで55fpsで動作します。
論文参考訳（メタデータ） (2022-03-25T09:45:27Z)
LiteTransformerSearch: Training-free On-device Search for Efficient Autoregressive Language Models [34.673688610935876]
モデルトレーニングを必要とせずに、レイテンシとパープレクシリティが最前線に現れることを示す。我々は,多種多様なデバイス上での軽量トランスフォーマーサーチ (LTS) の評価を行った。最大2倍のレイテンシでTransformer-XLのパープレキシティを実現することができることを示す。
論文参考訳（メタデータ） (2022-03-04T02:10:43Z)
Efficient Visual Tracking with Exemplar Transformers [98.62550635320514]
本稿では,リアルタイム物体追跡のための効率的な変換器であるExemplar Transformerを紹介する。 Exemplar Transformerレイヤを組み込んだビジュアルトラッカーであるE.T.Trackは、CPU上で47fpsで動作する。これは、他のトランスモデルよりも最大8倍高速である。
論文参考訳（メタデータ） (2021-12-17T18:57:54Z)
Trident Pyramid Networks: The importance of processing at the feature pyramid level for better object detection [50.008529403150206]
我々はTrident Pyramid Network (TPN)と呼ばれる新しいコアアーキテクチャを提案する。 TPNはより深い設計を可能にし、コミュニケーションベースの処理と自己処理のバランスを改善する。 TPNコアをオブジェクト検出ベンチマークで使用した場合,BifPNベースラインを1.5 APで上回り,一貫した改善が見られた。
論文参考訳（メタデータ） (2021-10-08T09:59:59Z)
Searching for Efficient Multi-Stage Vision Transformers [42.0565109812926]
Vision Transformer (ViT)は、自然言語処理のためのTransformerがコンピュータビジョンタスクに適用可能であることを示す。 ViT-ResNASは、ニューラルネットワークサーチ(NAS)で設計された効率的なマルチステージViTアーキテクチャである
論文参考訳（メタデータ） (2021-09-01T22:37:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。