論文の概要: Exploiting Image-Related Inductive Biases in Single-Branch Visual
Tracking
- arxiv url: http://arxiv.org/abs/2310.19542v1
- Date: Mon, 30 Oct 2023 13:48:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 20:08:24.712699
- Title: Exploiting Image-Related Inductive Biases in Single-Branch Visual
Tracking
- Title(参考訳): 単発視覚追跡における画像関連誘導バイアスの活用
- Authors: Chuanming Tang, Kai Wang, Joost van de Weijer, Jianlin Zhang, Yongmei
Huang
- Abstract要約: 本稿では,単一ブランチネットワークと識別モデルとのギャップを埋めるために,適応型ViTモデル予測トラッカ(AViTMP)を提案する。
AViTMPは最先端のパフォーマンス、特に長期追跡と堅牢性を実現している。
- 参考スコア(独自算出の注目度): 18.381858982041226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite achieving state-of-the-art performance in visual tracking, recent
single-branch trackers tend to overlook the weak prior assumptions associated
with the Vision Transformer (ViT) encoder and inference pipeline. Moreover, the
effectiveness of discriminative trackers remains constrained due to the
adoption of the dual-branch pipeline. To tackle the inferior effectiveness of
the vanilla ViT, we propose an Adaptive ViT Model Prediction tracker (AViTMP)
to bridge the gap between single-branch network and discriminative models.
Specifically, in the proposed encoder AViT-Enc, we introduce an adaptor module
and joint target state embedding to enrich the dense embedding paradigm based
on ViT. Then, we combine AViT-Enc with a dense-fusion decoder and a
discriminative target model to predict accurate location. Further, to mitigate
the limitations of conventional inference practice, we present a novel
inference pipeline called CycleTrack, which bolsters the tracking robustness in
the presence of distractors via bidirectional cycle tracking verification.
Lastly, we propose a dual-frame update inference strategy that adeptively
handles significant challenges in long-term scenarios. In the experiments, we
evaluate AViTMP on ten tracking benchmarks for a comprehensive assessment,
including LaSOT, LaSOTExtSub, AVisT, etc. The experimental results
unequivocally establish that AViTMP attains state-of-the-art performance,
especially on long-time tracking and robustness.
- Abstract(参考訳): 視覚追跡における最先端のパフォーマンスにもかかわらず、最近のシングルブランチトラッカーは、ビジョントランスフォーマー(ViT)エンコーダと推論パイプラインに関連する、弱い前提を見逃す傾向にある。
さらに, 判別トラッカの有効性は, デュアルブランチパイプラインの採用により制限されている。
単分岐ネットワークと識別モデルとのギャップを埋めるための適応型ViTモデル予測トラッカー(AViTMP)を提案する。
具体的には,提案するエンコーダavit-encにおいて,vitに基づく密組込みパラダイムを豊かにするために,アダプタモジュールとジョイントターゲット状態埋め込みを導入する。
次にavit-encと密輸デコーダと判別対象モデルを組み合わせて正確な位置を推定する。
さらに,従来の推論手法の限界を緩和するため,双方向のサイクルトラッキング検証により,トラクタの存在下でのロバスト性を向上するCycleTrackという新しい推論パイプラインを提案する。
最後に,長期的なシナリオにおいて大きな課題を積極的に処理する,デュアルフレーム更新推論戦略を提案する。
実験では,lasot,lasotextsub,avistなどを含む総合評価のための10のトラッキングベンチマークについてavitmpを評価した。
実験結果から,AViTMPが最先端の性能,特に長期追跡とロバスト性を達成したことが明らかとなった。
関連論文リスト
- SFTrack: A Robust Scale and Motion Adaptive Algorithm for Tracking Small and Fast Moving Objects [2.9803250365852443]
本稿では,無人航空機(UAV)映像における多物体追跡の問題に対処する。
交通監視システムや警察によるリアルタイム容疑者追跡など、様々なUAVアプリケーションにおいて重要な役割を果たしている。
低信頼度検出から対象物体の追跡を開始する新しい追跡戦略を提案する。
論文 参考訳(メタデータ) (2024-10-26T05:09:20Z) - Learning Motion Blur Robust Vision Transformers with Dynamic Early Exit for Real-Time UAV Tracking [14.382072224997074]
トレーニング済みのViTバックボーンを使用したシングルストリームアーキテクチャでは、パフォーマンス、効率、堅牢性が改善されている。
リアルタイムなUAV追跡のためにTransformerブロックを動的に終了する適応型フレームワークにすることで、このフレームワークの効率を向上する。
また, 動きのぼかし処理におけるViTsの有効性も改善した。これは, UAV, 追跡対象の速さ, あるいはその両方によって生じるUAVトラッキングの共通問題である。
論文 参考訳(メタデータ) (2024-07-07T14:10:04Z) - Adaptively Bypassing Vision Transformer Blocks for Efficient Visual Tracking [11.361394596302334]
ABTrackは、効率的な視覚追跡のためにトランスフォーマーブロックを適応的にバイパスする適応型計算フレームワークである。
本稿では,トランスブロックをバイパスすべきかどうかを判断するBypass Decision Module (BDM)を提案する。
本稿では,各トランスブロックにおけるトークンの潜在表現の次元を小さくする,新しいViTプルーニング手法を提案する。
論文 参考訳(メタデータ) (2024-06-12T09:39:18Z) - Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。
DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。
複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文 参考訳(メタデータ) (2024-03-26T12:31:58Z) - Tracking with Human-Intent Reasoning [64.69229729784008]
この作業では、新しいトラッキングタスクであるインストラクショントラッキングを提案している。
ビデオフレーム内で自動的にトラッキングを実行するようにトラッカーに要求する暗黙の追跡命令を提供する。
TrackGPTは複雑な推論ベースの追跡を行うことができる。
論文 参考訳(メタデータ) (2023-12-29T03:22:18Z) - Unified Sequence-to-Sequence Learning for Single- and Multi-Modal Visual Object Tracking [64.28025685503376]
SeqTrackは、ビジュアルトラッキングをシーケンス生成タスクとしてキャストし、オブジェクト境界ボックスを自動回帰的に予測する。
SeqTrackv2は補助モダリティのための統一インターフェースとタスクを指定するためのタスクプロンプトトークンのセットを統合している。
このシーケンス学習パラダイムは、トラッキングフレームワークを単純化するだけでなく、14の挑戦的なベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-04-27T17:56:29Z) - OmniTracker: Unifying Object Tracking by Tracking-with-Detection [119.51012668709502]
OmniTrackerは、完全に共有されたネットワークアーキテクチャ、モデルウェイト、推論パイプラインですべてのトラッキングタスクを解決するために提供されている。
LaSOT、TrackingNet、DAVIS16-17、MOT17、MOTS20、YTVIS19を含む7つの追跡データセットの実験は、OmniTrackerがタスク固有の追跡モデルと統合された追跡モデルの両方よりも、オンパーまたはそれ以上の結果を達成することを示した。
論文 参考訳(メタデータ) (2023-03-21T17:59:57Z) - SGDViT: Saliency-Guided Dynamic Vision Transformer for UAV Tracking [12.447854608181833]
本研究は、UAV追跡のための新しいサリエンシ誘導動的視覚変換器(SGDViT)を提案する。
提案手法は,クロスコリレーション操作を洗練させるために,タスク固有の新たなオブジェクト・サリエンシ・マイニング・ネットワークを設計する。
軽量な塩分フィルタリング変換器は、さらに塩分情報を洗練し、外観情報に焦点を当てる。
論文 参考訳(メタデータ) (2023-03-08T05:01:00Z) - Unsupervised Learning of Accurate Siamese Tracking [68.58171095173056]
分類枝と回帰枝の両方で時間対応を学習できる新しい教師なし追跡フレームワークを提案する。
トラッカーは、トラッカーネットやLaSOTのような大規模データセット上で、教師なしの手法と同等の性能を発揮する。
論文 参考訳(メタデータ) (2022-04-04T13:39:43Z) - Transformer Meets Tracker: Exploiting Temporal Context for Robust Visual
Tracking [47.205979159070445]
個々のビデオフレームをブリッジし、堅牢なオブジェクト追跡のためのトランスフォーマーアーキテクチャを通じて、時間的コンテキストを探索する。
自然言語処理タスクにおける変換器の古典的な使用とは異なり、エンコーダとデコーダを2つの並列分岐に分離する。
本手法は,有意な追跡ベンチマークに関する最新の記録を複数設定する。
論文 参考訳(メタデータ) (2021-03-22T09:20:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。