論文の概要: ZoomTrack: Target-aware Non-uniform Resizing for Efficient Visual
Tracking
- arxiv url: http://arxiv.org/abs/2310.10071v1
- Date: Mon, 16 Oct 2023 05:06:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 16:28:41.792204
- Title: ZoomTrack: Target-aware Non-uniform Resizing for Efficient Visual
Tracking
- Title(参考訳): ZoomTrack: 効率的なビジュアルトラッキングのためのターゲット対応非一様リサイズ
- Authors: Yutong Kou, Jin Gao, Bing Li, Gang Wang, Weiming Hu, Yizheng Wang and
Liang Li
- Abstract要約: トランスにより、高速で最先端(SOTA)の性能にアプローチできる速度指向トラッカーが実現された。
入力サイズを小さくして高い追従速度を達成しつつ、このギャップを狭めたり閉じたりすることさえ可能であることを実証する。
- 参考スコア(独自算出の注目度): 40.13014036490452
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the transformer has enabled the speed-oriented trackers to approach
state-of-the-art (SOTA) performance with high-speed thanks to the smaller input
size or the lighter feature extraction backbone, though they still
substantially lag behind their corresponding performance-oriented versions. In
this paper, we demonstrate that it is possible to narrow or even close this gap
while achieving high tracking speed based on the smaller input size. To this
end, we non-uniformly resize the cropped image to have a smaller input size
while the resolution of the area where the target is more likely to appear is
higher and vice versa. This enables us to solve the dilemma of attending to a
larger visual field while retaining more raw information for the target despite
a smaller input size. Our formulation for the non-uniform resizing can be
efficiently solved through quadratic programming (QP) and naturally integrated
into most of the crop-based local trackers. Comprehensive experiments on five
challenging datasets based on two kinds of transformer trackers, \ie, OSTrack
and TransT, demonstrate consistent improvements over them. In particular,
applying our method to the speed-oriented version of OSTrack even outperforms
its performance-oriented counterpart by 0.6% AUC on TNL2K, while running 50%
faster and saving over 55% MACs. Codes and models are available at
https://github.com/Kou-99/ZoomTrack.
- Abstract(参考訳): 近年、トランスにより、より小さい入力サイズや軽量な特徴抽出バックボーンにより、高速なSOTA(State-of-the-art)性能が実現されている。
本稿では,このギャップを狭くあるいは狭くすることで,より小さい入力サイズで高速なトラッキングを実現することができることを示す。
この目的のために、目標が出現する領域の解像度が高く、逆もまた高いが、クロッピングされた画像を不均一に再サイズして入力サイズを小さくする。
これにより、入力サイズが小さいにもかかわらず、ターゲットに対してより多くの生情報を保持しながら、より大きな視野に出席するジレンマを解決することができる。
非一様再サイズのための定式化は二次プログラミング(qp)によって効率的に解き、作物ベースのローカルトラッカーの多くに自然に統合できる。
\ie、OSTrack、TransTの2種類のトランスフォーマートラッカーに基づく5つの挑戦的なデータセットに関する総合的な実験は、それらに対して一貫した改善を示している。
特に,OSTrackの速度指向バージョンに本手法を適用した場合,TNL2Kでは0.6%のAUCを上回り,50%高速で55%のMACを節約できる。
コードとモデルはhttps://github.com/Kou-99/ZoomTrack.comから入手できる。
関連論文リスト
- Temporal Correlation Meets Embedding: Towards a 2nd Generation of JDE-based Real-Time Multi-Object Tracking [52.04679257903805]
共同検出・埋め込み(JDE)トラッカーは多目的追跡(MOT)タスクにおいて優れた性能を示した。
TCBTrackという名前のトラッカーは、複数の公開ベンチマークで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-07-19T07:48:45Z) - Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。
DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。
複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文 参考訳(メタデータ) (2024-03-26T12:31:58Z) - Tracking Meets LoRA: Faster Training, Larger Model, Stronger Performance [87.19164603145056]
実験室レベルの資源をトラッキングするための大規模ViTモデルのパワーを明らかにする手法であるLoRATを提案する。
私たちの作業の本質は、推論レイテンシを追加することなく、モデルパラメータの小さなサブセットを微調整するテクニックであるLoRAを適用することです。
我々はPETRの適応のみに基づくアンカーフリーヘッドを設計し、計算オーバーヘッドを少なくして性能を向上する。
論文 参考訳(メタデータ) (2024-03-08T11:41:48Z) - Mobile Vision Transformer-based Visual Object Tracking [3.9160947065896803]
バックボーンとしてMobileViTを用いた,軽量で高精度かつ高速なトラッキングアルゴリズムを提案する。
提案手法は,モデルのパラメータが4.7倍少なく,GPUの2.8倍の速度で動作するにもかかわらず,一般的なDMP-50トラッカーよりも優れている。
論文 参考訳(メタデータ) (2023-09-11T21:16:41Z) - Exploring Lightweight Hierarchical Vision Transformers for Efficient
Visual Tracking [69.89887818921825]
HiTは、さまざまなデバイス上で高速に動作可能な、効率的なトラッキングモデルの新たなファミリーだ。
HiTはLaSOTベンチマークで64.6%のAUCを達成した。
論文 参考訳(メタデータ) (2023-08-14T02:51:34Z) - Efficient Visual Tracking via Hierarchical Cross-Attention Transformer [82.92565582642847]
本稿では,HCAT と呼ばれる階層型クロスアテンショントランスを用いた効率的な追跡手法を提案する。
当社のモデルは、GPUで約195fps、CPUで45fps、NVidia Jetson AGX XavierのエッジAIプラットフォームで55fpsで動作します。
論文 参考訳(メタデータ) (2022-03-25T09:45:27Z) - DeepScale: An Online Frame Size Adaptation Framework to Accelerate
Visual Multi-object Tracking [8.878656943106934]
DeepScaleは、追跡スループットを高速化するモデルに依存しないフレームサイズ選択アプローチである。
フレームサイズを実行時に適応させることで、トラッキング精度と速度の適切なトレードオフを見つけることができる。
最先端のトラッカーであるDeepScale++と比較して、DeepScaleの亜種であるDeepScale++は、適度な劣化だけで1.57倍の高速化を実現している。
論文 参考訳(メタデータ) (2021-07-22T00:12:58Z) - STMTrack: Template-free Visual Tracking with Space-time Memory Networks [42.06375415765325]
テンプレート更新機構を持つ既存のトラッカーは、競争性能を達成するために、時間を要する数値最適化と複雑な手設計戦略に依存している。
本稿では,ターゲットに関する歴史的情報を十分に活用することのできる,時空メモリネットワーク上に構築した新しいトラッキングフレームワークを提案する。
具体的には、ターゲットの履歴情報を記憶して、トラッカーを現在のフレーム内の最も情報性の高い領域に集中させる新しい記憶機構を導入する。
論文 参考訳(メタデータ) (2021-04-01T08:10:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。