論文の概要: UTPTrack: Towards Simple and Unified Token Pruning for Visual Tracking
- arxiv url: http://arxiv.org/abs/2602.23734v1
- Date: Fri, 27 Feb 2026 06:58:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.28984
- Title: UTPTrack: Towards Simple and Unified Token Pruning for Visual Tracking
- Title(参考訳): UTPTrack:ビジュアルトラッキングのためのシンプルで統一されたトークンプルーニングを目指す
- Authors: Hao Wu, Xudong Wang, Jialiang Zhang, Junlong Tong, Xinghao Chen, Junyan Lin, Yunpu Ma, Xiaoyu Shen,
- Abstract要約: ワンストリームトランスフォーマーベースのトラッカーは、視覚的物体追跡において高度な性能を達成するが、計算上のオーバーヘッドに悩まされる。
UTPTrackは、シンプルで統一されたToken Pruningフレームワークで、初めて3つのコンポーネント全てを共同で圧縮する。
10ベンチマークの大規模な評価は、UTPTrackがプルーニングベースのトラッカーの精度と効率のトレードオフにおいて、新たな最先端を実現していることを示している。
- 参考スコア(独自算出の注目度): 23.83535022949326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One-stream Transformer-based trackers achieve advanced performance in visual object tracking but suffer from significant computational overhead that hinders real-time deployment. While token pruning offers a path to efficiency, existing methods are fragmented. They typically prune the search region, dynamic template, and static template in isolation, overlooking critical inter-component dependencies, which yields suboptimal pruning and degraded accuracy. To address this, we introduce UTPTrack, a simple and Unified Token Pruning framework that, for the first time, jointly compresses all three components. UTPTrack employs an attention-guided, token type-aware strategy to holistically model redundancy, a design that seamlessly supports unified tracking across multimodal and language-guided tasks within a single model. Extensive evaluations on 10 benchmarks demonstrate that UTPTrack achieves a new state-of-the-art in the accuracy-efficiency trade-off for pruning-based trackers, pruning 65.4% of vision tokens in RGB-based tracking and 67.5% in unified tracking while preserving 99.7% and 100.5% of baseline performance, respectively. This strong performance across both RGB and multimodal scenarios underlines its potential as a robust foundation for future research in efficient visual tracking. Code will be released at https://github.com/EIT-NLP/UTPTrack.
- Abstract(参考訳): ワンストリームトランスフォーマーベースのトラッカーは、ビジュアルオブジェクトトラッキングにおいて高度なパフォーマンスを達成するが、リアルタイムデプロイメントを妨げる計算オーバーヘッドに悩まされる。
トークンプルーニングは効率性へのパスを提供するが、既存のメソッドは断片化されている。
それらは通常、探索領域、動的テンプレート、静的テンプレートを分離し、重要なコンポーネント間の依存関係を見渡す。
これを解決するために,UTPTrackを紹介した。UTPTrackはシンプルで統一されたToken Pruningフレームワークで,初めて3つのコンポーネントを共同で圧縮する。
UTPTrackは、マルチモーダルタスクと言語誘導タスクをまたいだシームレスな統合トラッキングをサポートする設計で、冗長性を全体モデル化するために、注意誘導型トークン型認識戦略を採用している。
10のベンチマークによる大規模な評価では、UTPTrackはプルーニングベースのトラッカーの精度と効率のトレードオフにおいて、それぞれ99.7%と100.5%のベースライン性能を保ちながら、RGBベースのトラッキングにおいて65.4%のビジョントークンと67.5%の統一されたトラッキングを実現している。
このRGBシナリオとマルチモーダルシナリオの両方にわたる強力なパフォーマンスは、将来の効率的なビジュアルトラッキング研究の強固な基盤としての可能性を示している。
コードはhttps://github.com/EIT-NLP/UTPTrack.comでリリースされる。
関連論文リスト
- UETrack: A Unified and Efficient Framework for Single Object Tracking [46.50641228786134]
UETrackは単一のオブジェクト追跡のための効率的なフレームワークである。
RGB、Depth、Therical、Event、Languageといった複数のモダリティを効率的に扱う。
従来の手法に比べて、速度精度のトレードオフが優れている。
論文 参考訳(メタデータ) (2026-03-02T03:32:30Z) - UniTrack: Differentiable Graph Representation Learning for Multi-Object Tracking [5.241700353040585]
UniTrackは、マルチオブジェクトトラッキング(MOT)を強化するために設計された、プラグアンドプレイグラフ理論の損失関数である。
最大で53%のIDスイッチが削減され、12%のIDF1が、挑戦的なベンチマークで改善され、SportsMOT上でのピークパフォーマンスは9.7%向上した。
論文 参考訳(メタデータ) (2026-02-04T20:44:16Z) - Two-stream Beats One-stream: Asymmetric Siamese Network for Efficient Visual Tracking [54.124445709376154]
効率的な追跡を行うために,textbfAsymTrack という新しい非対称なシームズトラッカーを提案する。
このアーキテクチャに基づいて、検索機能に重要な手がかりを注入する効率的なテンプレート変調機構を考案する。
実験によると、AsymTrackは異なるプラットフォーム間で、より優れたスピード精度のトレードオフを提供する。
論文 参考訳(メタデータ) (2025-03-01T14:44:54Z) - Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。
DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。
複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文 参考訳(メタデータ) (2024-03-26T12:31:58Z) - Single-Model and Any-Modality for Video Object Tracking [85.83753760853142]
任意のモダリティに対して単一のパラメータセットの統一トラッカーUn-Trackを導入する。
任意のモダリティを扱うために,低ランク因子化および再構成手法を用いて,それらの共通潜時空間を学習する。
我々のUn-Trackは、+6.6M(93M以上)のパラメータを持つ+2.14(21.50以上)のGFLOPを導入することで、DepthTrackデータセット上で、+8.1絶対Fスコアゲインを達成する。
論文 参考訳(メタデータ) (2023-11-27T14:17:41Z) - Revisiting Color-Event based Tracking: A Unified Network, Dataset, and
Metric [53.88188265943762]
上記の機能を同時に実現したCEUTrack(Color-Event Unified Tracking)のためのシングルステージバックボーンネットワークを提案する。
提案するCEUTrackはシンプルで,効率的で,75FPS以上を達成し,新たなSOTA性能を実現している。
論文 参考訳(メタデータ) (2022-11-20T16:01:31Z) - Joint Feature Learning and Relation Modeling for Tracking: A One-Stream
Framework [76.70603443624012]
特徴学習と関係モデリングを統合した新しい一ストリーム追跡(OSTrack)フレームワークを提案する。
このようにして、相互誘導により識別的目標指向特徴を動的に抽出することができる。
OSTrackは、複数のベンチマークで最先端のパフォーマンスを実現しており、特に、ワンショットトラッキングベンチマークのGOT-10kでは印象的な結果を示している。
論文 参考訳(メタデータ) (2022-03-22T18:37:11Z) - Learning Dynamic Compact Memory Embedding for Deformable Visual Object
Tracking [82.34356879078955]
本稿では,セグメント化に基づく変形可能な視覚追跡手法の識別を強化するために,コンパクトなメモリ埋め込みを提案する。
DAVIS 2017ベンチマークでは,D3SやSiamMaskなどのセグメンテーションベースのトラッカーよりも優れている。
論文 参考訳(メタデータ) (2021-11-23T03:07:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。