論文の概要: An Efficient Token Compression Framework for Visual Object Tracking
- arxiv url: http://arxiv.org/abs/2605.08329v1
- Date: Fri, 08 May 2026 17:26:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.572358
- Title: An Efficient Token Compression Framework for Visual Object Tracking
- Title(参考訳): ビジュアルオブジェクト追跡のための効率的なトークン圧縮フレームワーク
- Authors: Weijing Wu, Qihua Liang, Bineng Zhong, Haiying Xia, Zhiyi Mo, Shuxiang Song,
- Abstract要約: トランスフォーマーベースのトラッカーは、より多くの歴史的フレームを活用して、より豊かな時間的手がかりをキャプチャする。
この戦略は膨大な数の視覚的入力トークンにつながる。
本稿では,テンプレートトークンを効率よく圧縮するフレームワークを提案する。
我々の手法は現在のトラッカーよりも優れています。
- 参考スコア(独自算出の注目度): 37.06665888908352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Refining visual representations by eliminating their internal feature-level redundancy is crucial for simultaneously optimizing the performance and computational cost of models in visual tracking. To enhance their performance, many contemporary Transformer-based trackers leverage a larger number of historical template frames to capture richer spatio-temporal cues. However, this strategy leads to a massive number of input visual tokens. This creates two critical issues: it imposes a quadratic computational burden and can also degrade the tracker's overall performance. To bridge this gap, we propose a compress-then-interact tracking framework, ETCTrack, that learns to efficiently compress template tokens from historical template frames into a robust target representation, moving beyond handcrafted rules. Our method first employs the Adaptive Token Compressor to dynamically construct compact yet highly discriminative template tokens by filtering out redundant visual tokens. These refined template tokens are then processed by our Hierarchical Interaction Encoder to achieve a deep, adaptive interaction with the search features. Refined search features ensure subsequent precise target localization. Experiments on seven benchmarks demonstrate that our method outperforms current state-of-the-art trackers. ETCTrack-B224 reduces the number of template tokens by 60%, leading to a 21.4% reduction in MACs with only a 0.4% drop in accuracy. The source code are available at https://github.com/PJD-WJ/ETCTrack.
- Abstract(参考訳): 視覚追跡におけるモデルの性能と計算コストを同時に最適化するためには,内部的特徴レベルの冗長性を排除して視覚表現を洗練することが重要である。
それらの性能を高めるために、多くの現代のトランスフォーマーベースのトラッカーは、より豊かな時空間的手がかりを捉えるために、より多くの歴史的テンプレートフレームを活用している。
しかし、この戦略は膨大な数の入力ビジュアルトークンをもたらす。
これは2つの重要な問題を生み出し、これは2次計算の重荷を課し、トラッカー全体の性能を低下させる。
このギャップを埋めるため,従来のテンプレートフレームからのテンプレートトークンを,手作りルールを超えて頑健なターゲット表現に効率よく圧縮するETCTrackを提案する。
提案手法はまず適応トークン圧縮器を用いて,冗長な視覚トークンをフィルタリングすることにより,コンパクトだが識別性の高いテンプレートトークンを動的に構築する。
これらの洗練されたテンプレートトークンは階層的インタラクションエンコーダによって処理され、検索機能との深い適応的なインタラクションを実現する。
改良された検索機能は、その後の正確なターゲットローカライゼーションを保証する。
7つのベンチマーク実験により,本手法が現在最先端トラッカーより優れていることが示された。
ETCTrack-B224はテンプレートトークンの数を60%削減し、MACは21.4%減少し、精度はわずか0.4%低下した。
ソースコードはhttps://github.com/PJD-WJ/ETCTrack.comで入手できる。
関連論文リスト
- UTPTrack: Towards Simple and Unified Token Pruning for Visual Tracking [23.83535022949326]
ワンストリームトランスフォーマーベースのトラッカーは、視覚的物体追跡において高度な性能を達成するが、計算上のオーバーヘッドに悩まされる。
UTPTrackは、シンプルで統一されたToken Pruningフレームワークで、初めて3つのコンポーネント全てを共同で圧縮する。
10ベンチマークの大規模な評価は、UTPTrackがプルーニングベースのトラッカーの精度と効率のトレードオフにおいて、新たな最先端を実現していることを示している。
論文 参考訳(メタデータ) (2026-02-27T06:58:09Z) - TrajTok: Learning Trajectory Tokens enables better Video Understanding [63.1260672430712]
ビデオモデルのトークン化は、通常、パッチ化によって、過剰で冗長な数のトークンを生成する。
そこで我々は,ビデオモデルと完全に統合され,共にトレーニングされたビデオトークンモジュールであるTrajTokを提案する。
本稿では,前処理した視覚特徴量(TrajAdapter)の探索ヘッドとしてシームレスに統合できるか,特に長ビデオ推論において高い性能を持つ視覚言語モデル(TrajVLM)のアライメントコネクタとして利用できることを示す。
論文 参考訳(メタデータ) (2026-02-26T09:15:34Z) - CORE: Compact Object-centric REpresentations as a New Paradigm for Token Merging in LVLMs [29.08277140543501]
視覚的トークン圧縮のための新しいパラダイムであるCORE(Compact Object-centric Representation)を紹介する。
COREは効率的なセグメンテーションデコーダを利用してオブジェクトマスクを生成する。
実験により、COREは固定レート圧縮のための6つの信頼性ベンチマークに対して新しい最先端のベンチマークを確立するだけでなく、適応レート設定において劇的な効率向上を達成することが示された。
論文 参考訳(メタデータ) (2025-11-18T03:02:23Z) - Efficient Token Compression for Vision Transformer with Spatial Information Preserved [59.79302182800274]
トーケン圧縮は、トランスモデルの計算およびメモリ要求の低減に不可欠である。
本稿では,Prune と Merge という,効率的なハードウェア互換のトークン圧縮手法を提案する。
論文 参考訳(メタデータ) (2025-03-30T14:23:18Z) - Two-stream Beats One-stream: Asymmetric Siamese Network for Efficient Visual Tracking [54.124445709376154]
効率的な追跡を行うために,textbfAsymTrack という新しい非対称なシームズトラッカーを提案する。
このアーキテクチャに基づいて、検索機能に重要な手がかりを注入する効率的なテンプレート変調機構を考案する。
実験によると、AsymTrackは異なるプラットフォーム間で、より優れたスピード精度のトレードオフを提供する。
論文 参考訳(メタデータ) (2025-03-01T14:44:54Z) - AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。
本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。
提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文 参考訳(メタデータ) (2023-11-02T12:48:43Z) - Revisiting Token Pruning for Object Detection and Instance Segmentation [25.3324628669201]
オブジェクトとインスタンスのセグメンテーションの推論を高速化するトークンプルーニングについて検討する。
従来のトークンプルーニング法と比較して,ボックス・マスクともに1.5mAPから0.3mAPに低下した。
論文 参考訳(メタデータ) (2023-06-12T11:55:33Z) - Compact Transformer Tracker with Correlative Masked Modeling [16.234426179567837]
Transformerフレームワークは、ビジュアルオブジェクト追跡において優れたパフォーマンスを示している。
最近の進歩は、より優れた情報収集のための注意機構の変種を探究することに焦点を当てている。
本稿では,バニラ自己注意構造が情報収集に十分であることを示す。
論文 参考訳(メタデータ) (2023-01-26T04:58:08Z) - Learning Dynamic Compact Memory Embedding for Deformable Visual Object
Tracking [82.34356879078955]
本稿では,セグメント化に基づく変形可能な視覚追跡手法の識別を強化するために,コンパクトなメモリ埋め込みを提案する。
DAVIS 2017ベンチマークでは,D3SやSiamMaskなどのセグメンテーションベースのトラッカーよりも優れている。
論文 参考訳(メタデータ) (2021-11-23T03:07:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。