論文の概要: Context-Aware Token Pruning and Discriminative Selective Attention for Transformer Tracking
- arxiv url: http://arxiv.org/abs/2511.19928v1
- Date: Tue, 25 Nov 2025 05:12:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.280174
- Title: Context-Aware Token Pruning and Discriminative Selective Attention for Transformer Tracking
- Title(参考訳): 変圧器追従のための文脈対応トーケンプルーニングと識別的選択注意
- Authors: Janani Kugarajeevan, Thanikasalam Kokul, Amirthalingam Ramanan, Subha Fernando,
- Abstract要約: 1ストリームトランスフォーマーベースのトラッカーはテンプレートと検索領域トークンを連結することで顕著な性能を示した。
ターゲットテンプレートトークンに出席するバックグラウンド検索トークンの過剰な割合は、トラッカーの識別能力を弱める。
CPDATrackは、バックグラウンドトークンとイントラクタトークンからの干渉を抑制するために設計された、新しいトラッキングフレームワークである。
- 参考スコア(独自算出の注目度): 2.557588419790226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One-stream Transformer-based trackers have demonstrated remarkable performance by concatenating template and search region tokens, thereby enabling joint attention across all tokens. However, enabling an excessive proportion of background search tokens to attend to the target template tokens weakens the tracker's discriminative capability. Several token pruning methods have been proposed to mitigate background interference; however, they often remove tokens near the target, leading to the loss of essential contextual information and degraded tracking performance. Moreover, the presence of distractors within the search tokens further reduces the tracker's ability to accurately identify the target. To address these limitations, we propose CPDATrack, a novel tracking framework designed to suppress interference from background and distractor tokens while enhancing computational efficiency. First, a learnable module is integrated between two designated encoder layers to estimate the probability of each search token being associated with the target. Based on these estimates, less-informative background tokens are pruned from the search region while preserving the contextual cues surrounding the target. To further suppress background interference, a discriminative selective attention mechanism is employed that fully blocks search-to-template attention in the early layers. In the subsequent encoder layers, high-probability target tokens are selectively extracted from a localized region to attend to the template tokens, thereby reducing the influence of background and distractor tokens. The proposed CPDATrack achieves state-of-the-art performance across multiple benchmarks, particularly on GOT-10k, where it attains an average overlap of 75.1 percent.
- Abstract(参考訳): 1ストリームトランスフォーマーベースのトラッカーはテンプレートと検索領域トークンを連結することにより、すべてのトークンに共同で注目することを可能にすることで、顕著な性能を示した。
しかし、バックグラウンド検索トークンの過剰な割合でターゲットテンプレートトークンへの参加を可能にすることで、トラッカーの識別能力が低下する。
背景干渉を軽減するためにいくつかのトークンプルーニング法が提案されているが、それらはしばしばターゲット付近のトークンを除去し、重要なコンテキスト情報の喪失と追跡性能の低下につながる。
さらに、サーチトークン内にイントラクタが存在することにより、トラッカーがターゲットを正確に識別する能力はさらに低下する。
これらの制約に対処するため,計算効率を向上しつつ,背景トークンや乱れトークンからの干渉を抑制する新しい追跡フレームワークであるCPDATrackを提案する。
まず、学習可能なモジュールを2つの指定されたエンコーダ層間で統合し、ターゲットに関連付けられた各検索トークンの確率を推定する。
これらの推定に基づいて、ターゲットを取り巻く文脈的手がかりを保ちながら、検索領域から、非形式的背景トークンを抽出する。
背景干渉をさらに抑制するため、早期の層における探索対テンプレートの注意を完全に遮断する識別選択的注意機構を用いる。
その後のエンコーダ層では、高確率目標トークンを局所化領域から選択的に抽出してテンプレートトークンに参画し、背景および乱れトークンの影響を低減させる。
提案された CPDATrack は複数のベンチマーク、特に GOT-10k における最先端のパフォーマンスを達成し、平均75.1% のオーバーラップを実現している。
関連論文リスト
- Training-Free Token Pruning via Zeroth-Order Gradient Estimation in Vision-Language Models [16.540220733551823]
VLM(Large Vision-Language Models)は、強力なマルチモーダル推論を実現するが、冗長な視覚トークンから重い推論コストを発生させる。
注意に基づく手法は、しばしばレイヤやヘッド間で不安定な生の注意スコアに依存する。
簡単な直感に基づいて構築されたトレーニング不要のフレームワークとして,我々の提案する。
論文 参考訳(メタデータ) (2025-09-29T14:20:05Z) - Less is More: Token Context-aware Learning for Object Tracking [20.222950380244377]
LMTrackはトークンコンテキスト対応トラッキングパイプラインである。
効率的な視覚追跡のために、高品質な参照トークンを自動的に学習する。
GOT-10K、TrackingNet、LaSOTなどのトラッキングベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2025-01-01T07:05:31Z) - Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。
本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。
クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-11-29T18:58:22Z) - ToSA: Token Selective Attention for Efficient Vision Transformers [50.13756218204456]
ToSAはトークン選択型アテンションアプローチで、コンバータ層をスキップできるトークンだけでなく、参加する必要のあるトークンも識別できる。
ToSAは,ImageNet分類ベンチマークの精度を維持しながら,計算コストを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-06-13T05:17:21Z) - Optimized Information Flow for Transformer Tracking [0.7199733380797579]
ワンストリームトランスフォーマートラッカーは、挑戦的なベンチマークデータセットで優れたパフォーマンスを示している。
トラッカーの識別能力を高めるための新しいOIFTrackフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-13T03:39:15Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Dynamic Focus-aware Positional Queries for Semantic Segmentation [94.6834904076914]
本稿では,動的焦点認識型位置情報クエリと呼ばれるセマンティックセグメンテーションのための,シンプルで効果的なクエリ設計を提案する。
我々のフレームワークはSOTAの性能を達成し、ResNet-50、Swin-T、Swin-Bのバックボーンによる1.1%、1.9%、および1.1%の単一スケールmIoUでMask2formerより優れています。
論文 参考訳(メタデータ) (2022-04-04T05:16:41Z) - Semi-Supervised Crowd Counting via Self-Training on Surrogate Tasks [50.78037828213118]
本稿では,機能学習の観点から,半教師付き群集カウント問題に取り組む。
本稿では,2つの革新的なコンポーネント上に構築された,新しい半教師付き群集カウント手法を提案する。
論文 参考訳(メタデータ) (2020-07-07T05:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。