論文の概要: FARTrack: Fast Autoregressive Visual Tracking with High Performance
- arxiv url: http://arxiv.org/abs/2602.03214v1
- Date: Tue, 03 Feb 2026 07:29:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.312066
- Title: FARTrack: Fast Autoregressive Visual Tracking with High Performance
- Title(参考訳): FARTrack: 高速な自動回帰ビジュアルトラッキングと高性能
- Authors: Guijie Wang, Tong Lin, Yifan Bai, Anjia Cao, Shiyi Liang, Wangbo Zhao, Xing Wei,
- Abstract要約: FARTrackは高速自動回帰トラッキングフレームワークである。
GOT-10kで70.6%のAOをリアルタイムで提供する。
我々の最速モデルは、GPU上で343FPS、CPU上で121FPSの速度を達成する。
- 参考スコア(独自算出の注目度): 17.53171333786429
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inference speed and tracking performance are two critical evaluation metrics in the field of visual tracking. However, high-performance trackers often suffer from slow processing speeds, making them impractical for deployment on resource-constrained devices. To alleviate this issue, we propose FARTrack, a Fast Auto-Regressive Tracking framework. Since autoregression emphasizes the temporal nature of the trajectory sequence, it can maintain high performance while achieving efficient execution across various devices. FARTrack introduces Task-Specific Self-Distillation and Inter-frame Autoregressive Sparsification, designed from the perspectives of shallow-yet-accurate distillation and redundant-to-essential token optimization, respectively. Task-Specific Self-Distillation achieves model compression by distilling task-specific tokens layer by layer, enhancing the model's inference speed while avoiding suboptimal manual teacher-student layer pairs assignments. Meanwhile, Inter-frame Autoregressive Sparsification sequentially condenses multiple templates, avoiding additional runtime overhead while learning a temporally-global optimal sparsification strategy. FARTrack demonstrates outstanding speed and competitive performance. It delivers an AO of 70.6% on GOT-10k in real-time. Beyond, our fastest model achieves a speed of 343 FPS on the GPU and 121 FPS on the CPU.
- Abstract(参考訳): 推論速度とトラッキング性能は、視覚的トラッキングの分野における2つの重要な評価指標である。
しかし、高性能トラッカーは処理速度の遅さに悩まされることが多く、リソース制限されたデバイスへの展開には実用的ではない。
この問題を軽減するために、我々は高速自動回帰トラッキングフレームワークであるFARTrackを提案する。
自己回帰は、軌道列の時間的性質を強調するため、様々なデバイス間で効率的な実行を実現しながら高い性能を維持することができる。
FARTrackは、浅口蒸留と冗長なトークン最適化の観点から設計されたタスク特化自己蒸留とフレーム間自己回帰スパシフィケーションを導入している。
Task-Specific Self-Distillation は,タスク固有のトークン層を層単位で蒸留することでモデル圧縮を実現する。
一方、フレーム間のオートレグレッシブ・スパシフィケーションは、時間的にグローバルな最適なスパシフィケーション戦略を学習しながら、複数のテンプレートをシーケンシャルに凝縮し、追加のランタイムオーバーヘッドを回避する。
FARTrackは、優れたスピードと競争性能を示す。
GOT-10kで70.6%のAOをリアルタイムで提供する。
さらに、私たちの最速モデルは、GPU上で343FPS、CPU上で121FPSの速度を実現しています。
関連論文リスト
- Track-On2: Enhancing Online Point Tracking with Memory [57.820749134569574]
オンライン長期追跡のためのシンプルで効率的なトランスフォーマーベースモデルであるTrack-OnをTrack-On2に拡張する。
Track-On2は、アーキテクチャの改良によるパフォーマンスと効率の向上、メモリの有効利用、および合成トレーニング戦略の改善を実現している。
論文 参考訳(メタデータ) (2025-09-23T15:00:18Z) - Exploiting Lightweight Hierarchical ViT and Dynamic Framework for Efficient Visual Tracking [49.07982079554859]
トランスフォーマーをベースとしたビジュアルトラッカーは、その強力なモデリング能力のために大きな進歩を見せている。
しかし、処理速度が遅いため、リソース制約のあるデバイスでは実用性に制限がある。
各種デバイス間の高速動作を維持しながら高い性能を実現するための,効率的な追跡モデルであるHiTを提案する。
論文 参考訳(メタデータ) (2025-06-25T12:46:46Z) - Towards Low-Latency Event Stream-based Visual Object Tracking: A Slow-Fast Approach [32.91982063297922]
我々は,SFTrackと呼ばれる,異なる運用要件に柔軟に対応する新しいスローファストトラッキングパラダイムを提案する。
提案するフレームワークは2つの補完モード,すなわち,十分な計算資源を持つシナリオを対象とした高精度なスロートラッカと,レイテンシを意識したリソース制約のある環境に適した効率的な高速トラッカをサポートする。
このフレームワークは,まず高時間分解能イベントストリームからグラフベースの表現学習を行い,学習したグラフ構造化情報を2つのFlashAttentionベースのビジョンバックボーンに統合する。
論文 参考訳(メタデータ) (2025-05-19T09:37:23Z) - Learning Occlusion-Robust Vision Transformers for Real-Time UAV Tracking [11.146155422858824]
Vision Transformer (ViT) バックボーンを用いたシングルストリームアーキテクチャは、リアルタイムUAVトラッキングに大きな可能性を示している。
UAV追跡のためのViTに基づいて,Occlusion-Robust Representation (ORR) の学習を提案する。
また,よりコンパクトなトラッカーを作成するために,適応的特徴量に基づく知識蒸留法(AFKD)を提案する。
論文 参考訳(メタデータ) (2025-04-12T14:06:50Z) - Online Dense Point Tracking with Streaming Memory [54.22820729477756]
デンスポイントトラッキングは、ビデオのかなりの部分を通して、初期フレーム内のすべてのポイントの連続的な追跡を必要とする、困難なタスクである。
最近の点追跡アルゴリズムは、通常、最初のフレームから現在のフレームへの間接的な情報伝達のためにスライドウィンドウに依存する。
我々は、高密度のtextbfPOint textbfTracking とオンラインビデオ処理のための textbfStreaming メモリを備えた軽量で高速なモデルを提案する。
論文 参考訳(メタデータ) (2025-03-09T06:16:49Z) - Temporal Correlation Meets Embedding: Towards a 2nd Generation of JDE-based Real-Time Multi-Object Tracking [52.04679257903805]
共同検出・埋め込み(JDE)トラッカーは多目的追跡(MOT)タスクにおいて優れた性能を示した。
TCBTrackという名前のトラッカーは、複数の公開ベンチマークで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-07-19T07:48:45Z) - Learning Motion Blur Robust Vision Transformers for Real-Time UAV Tracking [14.382072224997074]
無人航空機(UAV)の追跡は、監視、捜索救助、自律航法といった用途に欠かせない。
UAVとターゲットの高速移動は、リアルタイム処理要求や激しい動きのぼかしなど、ユニークな課題をもたらす。
本稿では,リアルタイムなUAVトラッキングのために,Transformerブロックを動的に終了する適応型計算フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-07T14:10:04Z) - Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。
DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。
複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文 参考訳(メタデータ) (2024-03-26T12:31:58Z) - DropMAE: Learning Representations via Masked Autoencoders with Spatial-Attention Dropout for Temporal Matching Tasks [77.84636815364905]
本稿では,種々の時間的マッチングに基づくダウンストリームタスクに対して,マスク付きオートエンコーダ(MAE)ビデオの事前学習を行う。
そこで我々は,映像における時間的対応学習を容易にするために,フレーム再構成において空間的アテンション・ドロップアウトを適応的に行うDropMAEを提案する。
論文 参考訳(メタデータ) (2023-04-02T16:40:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。