論文の概要: LoReTrack: Efficient and Accurate Low-Resolution Transformer Tracking
- arxiv url: http://arxiv.org/abs/2405.17660v1
- Date: Mon, 27 May 2024 21:19:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 23:11:29.074230
- Title: LoReTrack: Efficient and Accurate Low-Resolution Transformer Tracking
- Title(参考訳): LoReTrack: 効率的かつ高精度な低分解能トランストラッキング
- Authors: Shaohua Dong, Yunhe Feng, Qing Yang, Yuewei Lin, Heng Fan,
- Abstract要約: 低分解能トランストラッカー(LoReTrack)
256x256解像度のLoReTrackは、同じ解像度のベースラインを一貫して改善し、384x384高解像度のTransformerトラッカーと比較して、競争力またはさらに良い結果を示す。
128x128の解像度で、LaSOT/LaSOTextで64.9%/46.4%のSUCスコアを持つCPU上で25fpsで動作する。
- 参考スコア(独自算出の注目度): 12.670730236928353
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-performance Transformer trackers have shown excellent results, yet they often bear a heavy computational load. Observing that a smaller input can immediately and conveniently reduce computations without changing the model, an easy solution is to adopt the low-resolution input for efficient Transformer tracking. Albeit faster, this hurts tracking accuracy much due to information loss in low resolution tracking. In this paper, we aim to mitigate such information loss to boost the performance of the low-resolution Transformer tracking via dual knowledge distillation from a frozen high-resolution (but not a larger) Transformer tracker. The core lies in two simple yet effective distillation modules, comprising query-key-value knowledge distillation (QKV-KD) and discrimination knowledge distillation (Disc-KD), across resolutions. The former, from the global view, allows the low-resolution tracker to inherit the features and interactions from the high-resolution tracker, while the later, from the target-aware view, enhances the target-background distinguishing capacity via imitating discriminative regions from its high-resolution counterpart. With the dual knowledge distillation, our Low-Resolution Transformer Tracker (LoReTrack) enjoys not only high efficiency owing to reduced computation but also enhanced accuracy by distilling knowledge from the high-resolution tracker. In extensive experiments, LoReTrack with a 256x256 resolution consistently improves baseline with the same resolution, and shows competitive or even better results compared to 384x384 high-resolution Transformer tracker, while running 52% faster and saving 56% MACs. Moreover, LoReTrack is resolution-scalable. With a 128x128 resolution, it runs 25 fps on a CPU with 64.9%/46.4% SUC scores on LaSOT/LaSOText, surpassing all other CPU real-time trackers. Code will be released.
- Abstract(参考訳): 高性能トランスフォーマートラッカーは優れた結果を示したが、計算負荷が大きい場合が多い。
モデルを変更することなく、より小さな入力が即時かつ便利に計算を削減できることを確認すると、効率的なトランスフォーマー追跡のために、低解像度の入力を採用するのが簡単な解である。
高速ではあるが、低解像度追跡における情報損失により、トラッキングの精度が大幅に低下する。
本稿では,凍結した高解像度(大容量ではない)トランスフォーマートラッカーからの二重知識蒸留による低解像度トランスフォーマートラッキングの性能向上を図るため,そのような情報損失を軽減することを目的とする。
コアは、クエリキー値の知識蒸留(QKV-KD)と識別知識蒸留(Disc-KD)の2つの単純かつ効果的な蒸留モジュールに含まれている。
前者はグローバルな視点から、低解像度のトラッカーが高解像度のトラッカーから特徴や相互作用を継承することを可能にし、後者は、高解像度のトラッカーから識別領域を模倣することで、目標背景の識別能力を高める。
二重知識蒸留により,低分解能トランスフォーマートラッカー (LoReTrack) は, 計算量の削減による高効率化だけでなく, 高分解能トラッカーからの知識の蒸留による精度の向上も期待できる。
大規模な実験では、256x256解像度のLoReTrackは、同じ解像度でベースラインを一貫して改善し、384x384高解像度のTransformerトラッカーと比較して、競争力やパフォーマンスが向上し、52%高速で56%のMACを節約した。
さらに、LoReTrackは解像度スケーリング可能である。
128x128の解像度で、LaSOT/LaSOTextで64.9%/46.4%のSUCスコアを持つCPU上で25fpsで動作する。
コードはリリースされる。
関連論文リスト
- Cross Resolution Encoding-Decoding For Detection Transformers [33.248031676529635]
クロスリゾリューション。
デコード(CRED)は、マルチスケールを融合するように設計されている。
検出メカニズム
CREDは高解像度の DETR と同様の精度を約50%のFLOPで提供する。
コミュニティが利用するための事前訓練されたCRED-DETRをリリースする予定です。
論文 参考訳(メタデータ) (2024-10-05T09:01:59Z) - Multi-resolution Rescored ByteTrack for Video Object Detection on Ultra-low-power Embedded Systems [13.225654514930595]
Multi-Resolution Rescored Byte-Track (MR2-ByteTrack)は、超低消費電力組み込みプロセッサのための新しいビデオオブジェクト検出フレームワークである。
MR2-ByteTrackは、市販のDeep Neural Networkベースのオブジェクト検出器の平均計算負荷を最大2.25$times$に削減する。
GAP9マイクロコントローラでは,平均精度が2.16%,遅延が43%向上した。
論文 参考訳(メタデータ) (2024-04-17T15:45:49Z) - Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。
DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。
複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文 参考訳(メタデータ) (2024-03-26T12:31:58Z) - Tracking Meets LoRA: Faster Training, Larger Model, Stronger Performance [87.19164603145056]
実験室レベルの資源をトラッキングするための大規模ViTモデルのパワーを明らかにする手法であるLoRATを提案する。
私たちの作業の本質は、推論レイテンシを追加することなく、モデルパラメータの小さなサブセットを微調整するテクニックであるLoRAを適用することです。
我々はPETRの適応のみに基づくアンカーフリーヘッドを設計し、計算オーバーヘッドを少なくして性能を向上する。
論文 参考訳(メタデータ) (2024-03-08T11:41:48Z) - PTSR: Patch Translator for Image Super-Resolution [16.243363392717434]
画像超解像(PTSR)のためのパッチトランスレータを提案し,この問題に対処する。
提案するPTSRは、畳み込み動作のないトランスフォーマーベースGANネットワークである。
マルチヘッドアテンションを利用した改良パッチを再生するための新しいパッチトランスレータモジュールを提案する。
論文 参考訳(メタデータ) (2023-10-20T01:45:00Z) - ZoomTrack: Target-aware Non-uniform Resizing for Efficient Visual
Tracking [40.13014036490452]
トランスにより、高速で最先端(SOTA)の性能にアプローチできる速度指向トラッカーが実現された。
入力サイズを小さくして高い追従速度を達成しつつ、このギャップを狭めたり閉じたりすることさえ可能であることを実証する。
論文 参考訳(メタデータ) (2023-10-16T05:06:13Z) - Learning Disentangled Representation with Mutual Information
Maximization for Real-Time UAV Tracking [1.0541541376305243]
本稿では,相互情報(DR-MIM)による不整合表現を利用して,UAV追跡の精度と効率を向上させる。
我々のDR-MIMトラッカーは最先端のUAVトラッカーよりも優れています。
論文 参考訳(メタデータ) (2023-08-20T13:16:15Z) - Exploring Lightweight Hierarchical Vision Transformers for Efficient
Visual Tracking [69.89887818921825]
HiTは、さまざまなデバイス上で高速に動作可能な、効率的なトラッキングモデルの新たなファミリーだ。
HiTはLaSOTベンチマークで64.6%のAUCを達成した。
論文 参考訳(メタデータ) (2023-08-14T02:51:34Z) - Rethinking Resolution in the Context of Efficient Video Recognition [49.957690643214576]
クロスレゾリューションKD(ResKD)は、低解像度フレームでの認識精度を高めるための単純だが効果的な方法である。
我々は,最先端アーキテクチャ,すなわち3D-CNNとビデオトランスフォーマーに対して,その効果を広く示す。
論文 参考訳(メタデータ) (2022-09-26T15:50:44Z) - Efficient Decoder-free Object Detection with Transformers [75.00499377197475]
視覚変換器(ViT)は、物体検出アプローチのランドスケープを変化させている。
本稿では,デコーダフリー完全トランス(DFFT)オブジェクト検出器を提案する。
DFFT_SMALLは、トレーニングおよび推論段階で高い効率を達成する。
論文 参考訳(メタデータ) (2022-06-14T13:22:19Z) - SALISA: Saliency-based Input Sampling for Efficient Video Object
Detection [58.22508131162269]
ビデオオブジェクト検出のための新しい一様SALiencyベースの入力SAmpling技術であるSALISAを提案する。
SALISAは小物体の検出を著しく改善することを示す。
論文 参考訳(メタデータ) (2022-04-05T17:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。