論文の概要: Exploiting Lightweight Hierarchical ViT and Dynamic Framework for Efficient Visual Tracking
- arxiv url: http://arxiv.org/abs/2506.20381v1
- Date: Wed, 25 Jun 2025 12:46:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.738743
- Title: Exploiting Lightweight Hierarchical ViT and Dynamic Framework for Efficient Visual Tracking
- Title(参考訳): 高速ビジュアルトラッキングのための軽量階層型ViTと動的フレームワークの爆発的展開
- Authors: Ben Kang, Xin Chen, Jie Zhao, Chunjuan Bo, Dong Wang, Huchuan Lu,
- Abstract要約: トランスフォーマーをベースとしたビジュアルトラッカーは、その強力なモデリング能力のために大きな進歩を見せている。
しかし、処理速度が遅いため、リソース制約のあるデバイスでは実用性に制限がある。
各種デバイス間の高速動作を維持しながら高い性能を実現するための,効率的な追跡モデルであるHiTを提案する。
- 参考スコア(独自算出の注目度): 49.07982079554859
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based visual trackers have demonstrated significant advancements due to their powerful modeling capabilities. However, their practicality is limited on resource-constrained devices because of their slow processing speeds. To address this challenge, we present HiT, a novel family of efficient tracking models that achieve high performance while maintaining fast operation across various devices. The core innovation of HiT lies in its Bridge Module, which connects lightweight transformers to the tracking framework, enhancing feature representation quality. Additionally, we introduce a dual-image position encoding approach to effectively encode spatial information. HiT achieves an impressive speed of 61 frames per second (fps) on the NVIDIA Jetson AGX platform, alongside a competitive AUC of 64.6% on the LaSOT benchmark, outperforming all previous efficient trackers.Building on HiT, we propose DyHiT, an efficient dynamic tracker that flexibly adapts to scene complexity by selecting routes with varying computational requirements. DyHiT uses search area features extracted by the backbone network and inputs them into an efficient dynamic router to classify tracking scenarios. Based on the classification, DyHiT applies a divide-and-conquer strategy, selecting appropriate routes to achieve a superior trade-off between accuracy and speed. The fastest version of DyHiT achieves 111 fps on NVIDIA Jetson AGX while maintaining an AUC of 62.4% on LaSOT.Furthermore, we introduce a training-free acceleration method based on the dynamic routing architecture of DyHiT. This method significantly improves the execution speed of various high-performance trackers without sacrificing accuracy. For instance, our acceleration method enables the state-of-the-art tracker SeqTrack-B256 to achieve a 2.68 times speedup on an NVIDIA GeForce RTX 2080 Ti GPU while maintaining the same AUC of 69.9% on the LaSOT.
- Abstract(参考訳): トランスフォーマーをベースとしたビジュアルトラッカーは、その強力なモデリング能力のために大きな進歩を見せている。
しかし、処理速度が遅いため、リソース制約のあるデバイスでは実用性に制限がある。
この課題に対処するために,様々なデバイス間の高速動作を維持しながら高い性能を実現する,効率的な追跡モデルの新たなファミリであるHiTを提案する。
HiTの中核となるイノベーションは、軽量トランスフォーマーをトラッキングフレームワークに接続するBridge Moduleにある。
さらに,空間情報を効果的に符号化するためのデュアルイメージ位置符号化手法を提案する。
HiTはNVIDIA Jetson AGXプラットフォーム上で毎秒61フレーム(fps)の驚くべき速度を実現し、LaSOTベンチマークで64.6%の競争力を持つAUCは、これまでのすべての効率的なトラッカーより優れている。HiT上に構築されたDyHiTは、様々な計算要求のあるルートを選択して、シーンの複雑さに柔軟に適応する効率的な動的トラッカーである。
DyHiTは、バックボーンネットワークによって抽出された検索エリア機能を使用して、それらを効率的な動的ルータに入力し、トラッキングシナリオを分類する。
分類に基づいて、DyHiTは分割とコンカニオンの戦略を適用し、精度と速度のトレードオフをより優れたものにするための適切なルートを選択する。
DyHiTの最速バージョンはNVIDIA Jetson AGXで111fps、LaSOTで62.4%のAUCを維持している。
この方法は、精度を犠牲にすることなく、様々な高性能トラッカーの実行速度を大幅に向上させる。
例えば、当社の加速度法では、NVIDIA GeForce RTX 2080 Ti GPUの2.68倍の高速化を実現し、LaSOTでは69.9%のAUCを維持している。
関連論文リスト
- Temporal Correlation Meets Embedding: Towards a 2nd Generation of JDE-based Real-Time Multi-Object Tracking [52.04679257903805]
共同検出・埋め込み(JDE)トラッカーは多目的追跡(MOT)タスクにおいて優れた性能を示した。
TCBTrackという名前のトラッカーは、複数の公開ベンチマークで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-07-19T07:48:45Z) - Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。
DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。
複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文 参考訳(メタデータ) (2024-03-26T12:31:58Z) - LiteTrack: Layer Pruning with Asynchronous Feature Extraction for
Lightweight and Efficient Visual Tracking [4.179339279095506]
LiteTrackは、様々なデバイスにわたる高速操作に最適化された効率的なトランスフォーマーベースのトラッキングモデルである。
他の軽量トラッカーよりも精度と効率のトレードオフが良好である。
LiteTrack-B9はGOT-10kで72.2%AO、TrackingNetで82.4%AUC、NVIDIA 2080Ti GPUで171fpsで動作する。
論文 参考訳(メタデータ) (2023-09-17T12:01:03Z) - Exploring Lightweight Hierarchical Vision Transformers for Efficient
Visual Tracking [69.89887818921825]
HiTは、さまざまなデバイス上で高速に動作可能な、効率的なトラッキングモデルの新たなファミリーだ。
HiTはLaSOTベンチマークで64.6%のAUCを達成した。
論文 参考訳(メタデータ) (2023-08-14T02:51:34Z) - Efficient Visual Tracking via Hierarchical Cross-Attention Transformer [82.92565582642847]
本稿では,HCAT と呼ばれる階層型クロスアテンショントランスを用いた効率的な追跡手法を提案する。
当社のモデルは、GPUで約195fps、CPUで45fps、NVidia Jetson AGX XavierのエッジAIプラットフォームで55fpsで動作します。
論文 参考訳(メタデータ) (2022-03-25T09:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。