論文の概要: Exploring Lightweight Hierarchical Vision Transformers for Efficient
Visual Tracking
- arxiv url: http://arxiv.org/abs/2308.06904v1
- Date: Mon, 14 Aug 2023 02:51:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 14:46:47.815558
- Title: Exploring Lightweight Hierarchical Vision Transformers for Efficient
Visual Tracking
- Title(参考訳): 効率的な視覚追跡のための軽量階層型視覚トランスの探索
- Authors: Ben Kang, Xin Chen, Dong Wang, Houwen Peng and Huchuan Lu
- Abstract要約: HiTは、さまざまなデバイス上で高速に動作可能な、効率的なトラッキングモデルの新たなファミリーだ。
HiTはLaSOTベンチマークで64.6%のAUCを達成した。
- 参考スコア(独自算出の注目度): 69.89887818921825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based visual trackers have demonstrated significant progress
owing to their superior modeling capabilities. However, existing trackers are
hampered by low speed, limiting their applicability on devices with limited
computational power. To alleviate this problem, we propose HiT, a new family of
efficient tracking models that can run at high speed on different devices while
retaining high performance. The central idea of HiT is the Bridge Module, which
bridges the gap between modern lightweight transformers and the tracking
framework. The Bridge Module incorporates the high-level information of deep
features into the shallow large-resolution features. In this way, it produces
better features for the tracking head. We also propose a novel dual-image
position encoding technique that simultaneously encodes the position
information of both the search region and template images. The HiT model
achieves promising speed with competitive performance. For instance, it runs at
61 frames per second (fps) on the Nvidia Jetson AGX edge device. Furthermore,
HiT attains 64.6% AUC on the LaSOT benchmark, surpassing all previous efficient
trackers.
- Abstract(参考訳): トランスフォーマーベースのビジュアルトラッカーは、優れたモデリング能力のために大きな進歩を見せている。
しかし、既存のトラッカーは低速で妨げられ、計算能力に制限のあるデバイスに適用性を制限する。
この問題を軽減するため,我々は,高性能を維持しつつ,異なるデバイス上で高速に動作可能な,効率的なトラッキングモデルであるhitを提案する。
HiTの中心的なアイデアは、現代的な軽量トランスフォーマーとトラッキングフレームワークのギャップを埋めるBridge Moduleである。
ブリッジモジュールは、深い特徴の高レベル情報を浅い大解像度特徴に組み込む。
このようにして、トラッキングヘッドにより良い機能を生み出す。
また,検索領域とテンプレート画像の両方の位置情報を同時にエンコードする,新しい二重画像位置符号化手法を提案する。
HiTモデルは、競争性能で有望な速度を達成する。
例えば、Nvidia Jetson AGXエッジデバイス上で毎秒61フレーム(fps)で動作する。
さらに、HiTはLaSOTベンチマークで64.6%のAUCを獲得し、以前の効率的なトラッカーを全て上回っている。
関連論文リスト
- Quasar-ViT: Hardware-Oriented Quantization-Aware Architecture Search for Vision Transformers [56.37495946212932]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、コンピュータビジョンタスクにおいて優れた精度を示す。
ハードウェア指向の量子化対応アーキテクチャ検索フレームワークであるQuasar-ViTを提案する。
論文 参考訳(メタデータ) (2024-07-25T16:35:46Z) - ZoomTrack: Target-aware Non-uniform Resizing for Efficient Visual
Tracking [40.13014036490452]
トランスにより、高速で最先端(SOTA)の性能にアプローチできる速度指向トラッカーが実現された。
入力サイズを小さくして高い追従速度を達成しつつ、このギャップを狭めたり閉じたりすることさえ可能であることを実証する。
論文 参考訳(メタデータ) (2023-10-16T05:06:13Z) - LiteTrack: Layer Pruning with Asynchronous Feature Extraction for
Lightweight and Efficient Visual Tracking [4.179339279095506]
LiteTrackは、様々なデバイスにわたる高速操作に最適化された効率的なトランスフォーマーベースのトラッキングモデルである。
他の軽量トラッカーよりも精度と効率のトレードオフが良好である。
LiteTrack-B9はGOT-10kで72.2%AO、TrackingNetで82.4%AUC、NVIDIA 2080Ti GPUで171fpsで動作する。
論文 参考訳(メタデータ) (2023-09-17T12:01:03Z) - Data-Model-Circuit Tri-Design for Ultra-Light Video Intelligence on Edge
Devices [90.30316433184414]
本稿では,HDビデオストリーム上での高スループット,低コスト,高精度MOTのためのデータモデル・ハードウエア・トリデザイン・フレームワークを提案する。
現状のMOTベースラインと比較して、我々の三設計アプローチは12.5倍の遅延低減、20.9倍のフレームレート改善、5.83倍の低消費電力、9.78倍のエネルギー効率を実現でき、精度は低下しない。
論文 参考訳(メタデータ) (2022-10-16T16:21:40Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Efficient Visual Tracking via Hierarchical Cross-Attention Transformer [82.92565582642847]
本稿では,HCAT と呼ばれる階層型クロスアテンショントランスを用いた効率的な追跡手法を提案する。
当社のモデルは、GPUで約195fps、CPUで45fps、NVidia Jetson AGX XavierのエッジAIプラットフォームで55fpsで動作します。
論文 参考訳(メタデータ) (2022-03-25T09:45:27Z) - Efficient Visual Tracking with Exemplar Transformers [98.62550635320514]
本稿では,リアルタイム物体追跡のための効率的な変換器であるExemplar Transformerを紹介する。
Exemplar Transformerレイヤを組み込んだビジュアルトラッカーであるE.T.Trackは、CPU上で47fpsで動作する。
これは、他のトランスモデルよりも最大8倍高速である。
論文 参考訳(メタデータ) (2021-12-17T18:57:54Z) - Siamese Transformer Pyramid Networks for Real-Time UAV Tracking [3.0969191504482243]
本稿では,CNNとTransformerアーキテクチャの両方の利点を継承するSiamTPN(Siamese Transformer Pyramid Network)を紹介する。
航空機と一般的な追跡ベンチマークの両方の実験は、高速で動作しながら競争的な結果を得る。
我々の最速の可変トラッカーは、1つのCPUコアで30Hz以上で動作し、LaSOTデータセットで58.1%のAUCスコアを得る。
論文 参考訳(メタデータ) (2021-10-17T13:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。