論文の概要: Mobile Vision Transformer-based Visual Object Tracking
- arxiv url: http://arxiv.org/abs/2309.05829v1
- Date: Mon, 11 Sep 2023 21:16:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-13 15:11:50.870519
- Title: Mobile Vision Transformer-based Visual Object Tracking
- Title(参考訳): モバイルビジョン変換器を用いた視覚物体追跡
- Authors: Goutam Yelluru Gopal, Maria A. Amer
- Abstract要約: バックボーンとしてMobileViTを用いた,軽量で高精度かつ高速なトラッキングアルゴリズムを提案する。
提案手法は,モデルのパラメータが4.7倍少なく,GPUの2.8倍の速度で動作するにもかかわらず,一般的なDMP-50トラッカーよりも優れている。
- 参考スコア(独自算出の注目度): 3.9160947065896803
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The introduction of robust backbones, such as Vision Transformers, has
improved the performance of object tracking algorithms in recent years.
However, these state-of-the-art trackers are computationally expensive since
they have a large number of model parameters and rely on specialized hardware
(e.g., GPU) for faster inference. On the other hand, recent lightweight
trackers are fast but are less accurate, especially on large-scale datasets. We
propose a lightweight, accurate, and fast tracking algorithm using Mobile
Vision Transformers (MobileViT) as the backbone for the first time. We also
present a novel approach of fusing the template and search region
representations in the MobileViT backbone, thereby generating superior feature
encoding for target localization. The experimental results show that our
MobileViT-based Tracker, MVT, surpasses the performance of recent lightweight
trackers on the large-scale datasets GOT10k and TrackingNet, and with a high
inference speed. In addition, our method outperforms the popular DiMP-50
tracker despite having 4.7 times fewer model parameters and running at 2.8
times its speed on a GPU. The tracker code and models are available at
https://github.com/goutamyg/MVT
- Abstract(参考訳): 近年、ビジョントランスフォーマーのような堅牢なバックボーンの導入により、オブジェクト追跡アルゴリズムの性能が改善されている。
しかし、これらの最先端トラッカーは、多くのモデルパラメータを持ち、高速な推論のために特別なハードウェア(GPUなど)に依存しているため、計算コストが高い。
一方、最近の軽量トラッカーは高速であるが、特に大規模データセットでは精度が低い。
本稿では,Mobile Vision Transformers (MobileViT) をバックボーンとして,軽量かつ高精度かつ高速なトラッキングアルゴリズムを提案する。
また,mobilevitバックボーンにおけるテンプレート表現と検索領域表現を融合することにより,ターゲットローカライズに優れた特徴エンコーディングを実現する新しい手法を提案する。
実験の結果,MobileViT ベースのトラッカー MVT は,大規模データセット GOT10k と TrackingNet 上での最近の軽量トラッカーの性能を上回り,推論速度が高いことがわかった。
さらに、モデルパラメータが4.7倍少なく、GPUの2.8倍の速度で動作するにもかかわらず、DMP-50トラッカーよりも優れています。
トラッカーコードとモデルはhttps://github.com/goutamyg/mvtで入手できる。
関連論文リスト
- Tracking Meets LoRA: Faster Training, Larger Model, Stronger Performance [87.19164603145056]
実験室レベルの資源をトラッキングするための大規模ViTモデルのパワーを明らかにする手法であるLoRATを提案する。
私たちの作業の本質は、推論レイテンシを追加することなく、モデルパラメータの小さなサブセットを微調整するテクニックであるLoRAを適用することです。
我々はPETRの適応のみに基づくアンカーフリーヘッドを設計し、計算オーバーヘッドを少なくして性能を向上する。
論文 参考訳(メタデータ) (2024-03-08T11:41:48Z) - ZoomTrack: Target-aware Non-uniform Resizing for Efficient Visual
Tracking [40.13014036490452]
トランスにより、高速で最先端(SOTA)の性能にアプローチできる速度指向トラッカーが実現された。
入力サイズを小さくして高い追従速度を達成しつつ、このギャップを狭めたり閉じたりすることさえ可能であることを実証する。
論文 参考訳(メタデータ) (2023-10-16T05:06:13Z) - LiteTrack: Layer Pruning with Asynchronous Feature Extraction for
Lightweight and Efficient Visual Tracking [4.179339279095506]
LiteTrackは、様々なデバイスにわたる高速操作に最適化された効率的なトランスフォーマーベースのトラッキングモデルである。
他の軽量トラッカーよりも精度と効率のトレードオフが良好である。
LiteTrack-B9はGOT-10kで72.2%AO、TrackingNetで82.4%AUC、NVIDIA 2080Ti GPUで171fpsで動作する。
論文 参考訳(メタデータ) (2023-09-17T12:01:03Z) - BEVTrack: A Simple and Strong Baseline for 3D Single Object Tracking in Bird's-Eye View [56.77287041917277]
3Dシングルオブジェクトトラッキング(SOT)はコンピュータビジョンの基本課題であり、自律運転のようなアプリケーションに不可欠なことを証明している。
本稿では,単純で効果的なベースライン手法であるBEVTrackを提案する。
Bird's-Eye View (BEV) における目標運動を推定して追跡を行うことにより、BEVTrackは、ネットワーク設計、トレーニング目標、トラッキングパイプラインなど、様々な側面から驚くほどの単純さを示しながら、優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-09-05T12:42:26Z) - Exploring Lightweight Hierarchical Vision Transformers for Efficient
Visual Tracking [69.89887818921825]
HiTは、さまざまなデバイス上で高速に動作可能な、効率的なトラッキングモデルの新たなファミリーだ。
HiTはLaSOTベンチマークで64.6%のAUCを達成した。
論文 参考訳(メタデータ) (2023-08-14T02:51:34Z) - Efficient Visual Tracking via Hierarchical Cross-Attention Transformer [82.92565582642847]
本稿では,HCAT と呼ばれる階層型クロスアテンショントランスを用いた効率的な追跡手法を提案する。
当社のモデルは、GPUで約195fps、CPUで45fps、NVidia Jetson AGX XavierのエッジAIプラットフォームで55fpsで動作します。
論文 参考訳(メタデータ) (2022-03-25T09:45:27Z) - Efficient Visual Tracking with Exemplar Transformers [98.62550635320514]
本稿では,リアルタイム物体追跡のための効率的な変換器であるExemplar Transformerを紹介する。
Exemplar Transformerレイヤを組み込んだビジュアルトラッカーであるE.T.Trackは、CPU上で47fpsで動作する。
これは、他のトランスモデルよりも最大8倍高速である。
論文 参考訳(メタデータ) (2021-12-17T18:57:54Z) - LightTrack: Finding Lightweight Neural Networks for Object Tracking via
One-Shot Architecture Search [104.84999119090887]
ニューラルアーキテクチャサーチ(NAS)を用いて、より軽量で効率的なオブジェクトトラッカーを設計するLightTrackを提案する。
総合的な実験は、LightTrackが効果的であることを示している。
SiamRPN++やOceanといった手作りのSOTAトラッカーよりも優れたパフォーマンスを実現するトラッカーを見つけることができる。
論文 参考訳(メタデータ) (2021-04-29T17:55:24Z) - STMTrack: Template-free Visual Tracking with Space-time Memory Networks [42.06375415765325]
テンプレート更新機構を持つ既存のトラッカーは、競争性能を達成するために、時間を要する数値最適化と複雑な手設計戦略に依存している。
本稿では,ターゲットに関する歴史的情報を十分に活用することのできる,時空メモリネットワーク上に構築した新しいトラッキングフレームワークを提案する。
具体的には、ターゲットの履歴情報を記憶して、トラッカーを現在のフレーム内の最も情報性の高い領域に集中させる新しい記憶機構を導入する。
論文 参考訳(メタデータ) (2021-04-01T08:10:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。