論文の概要: Exploiting Image-Related Inductive Biases in Single-Branch Visual
Tracking
- arxiv url: http://arxiv.org/abs/2310.19542v2
- Date: Sat, 11 Nov 2023 13:56:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 19:49:21.684765
- Title: Exploiting Image-Related Inductive Biases in Single-Branch Visual
Tracking
- Title(参考訳): 単発視覚追跡における画像関連誘導バイアスの活用
- Authors: Chuanming Tang, Kai Wang, Joost van de Weijer, Jianlin Zhang, Yongmei
Huang
- Abstract要約: 本稿では,単一ブランチネットワークと識別モデルとのギャップを埋めるために,適応型ViTモデル予測トラッカ(AViTMP)を提案する。
AViTMPは最先端のパフォーマンス、特に長期追跡と堅牢性を実現している。
- 参考スコア(独自算出の注目度): 18.381858982041226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite achieving state-of-the-art performance in visual tracking, recent
single-branch trackers tend to overlook the weak prior assumptions associated
with the Vision Transformer (ViT) encoder and inference pipeline. Moreover, the
effectiveness of discriminative trackers remains constrained due to the
adoption of the dual-branch pipeline. To tackle the inferior effectiveness of
the vanilla ViT, we propose an Adaptive ViT Model Prediction tracker (AViTMP)
to bridge the gap between single-branch network and discriminative models.
Specifically, in the proposed encoder AViT-Enc, we introduce an adaptor module
and joint target state embedding to enrich the dense embedding paradigm based
on ViT. Then, we combine AViT-Enc with a dense-fusion decoder and a
discriminative target model to predict accurate location. Further, to mitigate
the limitations of conventional inference practice, we present a novel
inference pipeline called CycleTrack, which bolsters the tracking robustness in
the presence of distractors via bidirectional cycle tracking verification.
Lastly, we propose a dual-frame update inference strategy that adeptively
handles significant challenges in long-term scenarios. In the experiments, we
evaluate AViTMP on ten tracking benchmarks for a comprehensive assessment,
including LaSOT, LaSOTExtSub, AVisT, etc. The experimental results
unequivocally establish that AViTMP attains state-of-the-art performance,
especially on long-time tracking and robustness.
- Abstract(参考訳): 視覚追跡における最先端のパフォーマンスにもかかわらず、最近のシングルブランチトラッカーは、ビジョントランスフォーマー(ViT)エンコーダと推論パイプラインに関連する、弱い前提を見逃す傾向にある。
さらに, 判別トラッカの有効性は, デュアルブランチパイプラインの採用により制限されている。
単分岐ネットワークと識別モデルとのギャップを埋めるための適応型ViTモデル予測トラッカー(AViTMP)を提案する。
具体的には,提案するエンコーダavit-encにおいて,vitに基づく密組込みパラダイムを豊かにするために,アダプタモジュールとジョイントターゲット状態埋め込みを導入する。
次にavit-encと密輸デコーダと判別対象モデルを組み合わせて正確な位置を推定する。
さらに,従来の推論手法の限界を緩和するため,双方向のサイクルトラッキング検証により,トラクタの存在下でのロバスト性を向上するCycleTrackという新しい推論パイプラインを提案する。
最後に,長期的なシナリオにおいて大きな課題を積極的に処理する,デュアルフレーム更新推論戦略を提案する。
実験では,lasot,lasotextsub,avistなどを含む総合評価のための10のトラッキングベンチマークについてavitmpを評価した。
実験結果から,AViTMPが最先端の性能,特に長期追跡とロバスト性を達成したことが明らかとなった。
関連論文リスト
- Leveraging the Power of Data Augmentation for Transformer-based Tracking [64.46371987827312]
トラッキング用にカスタマイズされた2つのデータ拡張手法を提案する。
まず、動的探索半径機構と境界サンプルのシミュレーションにより、既存のランダムトリミングを最適化する。
第2に,背景干渉などの問題に対するモデルを可能にする,トークンレベルの機能混在強化戦略を提案する。
論文 参考訳(メタデータ) (2023-09-15T09:18:54Z) - SGDViT: Saliency-Guided Dynamic Vision Transformer for UAV Tracking [12.447854608181833]
本研究は、UAV追跡のための新しいサリエンシ誘導動的視覚変換器(SGDViT)を提案する。
提案手法は,クロスコリレーション操作を洗練させるために,タスク固有の新たなオブジェクト・サリエンシ・マイニング・ネットワークを設計する。
軽量な塩分フィルタリング変換器は、さらに塩分情報を洗練し、外観情報に焦点を当てる。
論文 参考訳(メタデータ) (2023-03-08T05:01:00Z) - AVisT: A Benchmark for Visual Object Tracking in Adverse Visibility [125.77396380698639]
AVisTは、視認性の悪いさまざまなシナリオにおける視覚的トラッキングのためのベンチマークである。
AVisTは、80kの注釈付きフレームを持つ120の挑戦的なシーケンスで構成されており、18の多様なシナリオにまたがっている。
我々は、属性間でのトラッキング性能を詳細に分析し、AVisTで17の人気のトラッカーと最近のトラッカーをベンチマークした。
論文 参考訳(メタデータ) (2022-08-14T17:49:37Z) - Deeper Insights into ViTs Robustness towards Common Corruptions [82.79764218627558]
我々は、CNNのようなアーキテクチャ設計とCNNベースのデータ拡張戦略が、一般的な汚職に対するViTsの堅牢性にどのように影響するかを検討する。
重なり合うパッチ埋め込みと畳み込みフィードフォワードネットワーク(FFN)がロバスト性の向上を実証する。
また、2つの角度から入力値の増大を可能にする新しい条件付き手法も導入する。
論文 参考訳(メタデータ) (2022-04-26T08:22:34Z) - Ad2Attack: Adaptive Adversarial Attack on Real-Time UAV Tracking [15.38386172273694]
本研究は,UAVオブジェクト追跡に対する新たな適応的対角攻撃手法,すなわちAd$2$Attackを提案する。
攻撃の非受容性と効率のバランスをとるために, 新たな最適化関数を提案する。
いくつかのよく知られたベンチマーク実験と実世界の条件実験により,攻撃手法の有効性が示された。
論文 参考訳(メタデータ) (2022-03-03T05:00:32Z) - Continuity-Discrimination Convolutional Neural Network for Visual Object
Tracking [150.51667609413312]
本稿では,視覚オブジェクト追跡のためのContinuity-Discrimination Convolutional Neural Network (CD-CNN) という新しいモデルを提案する。
この問題に対処するため、cd-cnnは時間的遅れの概念に基づいた時間的外観連続性をモデル化する。
不正確なターゲットの定位とドリフトを緩和するために,新しい概念 object-centroid を提案する。
論文 参考訳(メタデータ) (2021-04-18T06:35:03Z) - RSINet: Rotation-Scale Invariant Network for Online Visual Tracking [7.186849714896344]
ほとんどのネットワークベースのトラッカーは、モデル更新なしで追跡処理を行い、ターゲット固有の変動を適応的に学習することができない。
本稿では、上記の問題に対処する新しい回転スケール不変ネットワーク(RSINet)を提案する。
我々のRSINetトラッカーは、ターゲット・ディトラクタ識別部とローテーション・スケール推定部から構成されており、ローテーションとスケールの知識は、エンドツーエンドでマルチタスク学習法によって明示的に学習することができる。
追加で、追跡モデルは適応的に最適化され、時空間エネルギー制御が更新され、モデル安定性と信頼性が保証され、高いトラッキングが保証される。
論文 参考訳(メタデータ) (2020-11-18T08:19:14Z) - Cascaded Regression Tracking: Towards Online Hard Distractor
Discrimination [202.2562153608092]
本稿では,2段階の逐次回帰トラッカーを提案する。
第1段階では, 容易に同定可能な負の候補を抽出する。
第2段階では、残留するあいまいな硬質試料をダブルチェックするために、離散サンプリングに基づくリッジ回帰を設計する。
論文 参考訳(メタデータ) (2020-06-18T07:48:01Z) - TubeTK: Adopting Tubes to Track Multi-Object in a One-Step Training
Model [51.14840210957289]
マルチオブジェクトトラッキングは、長い間研究されてきた基本的な視覚問題である。
Tracking by Detection (TBD)の成功にもかかわらず、この2段階の手法はエンドツーエンドでトレーニングするには複雑すぎる。
本稿では,短いビデオクリップ中の物体の時間空間位置を示すために,バウンディングチューブを導入することで,一段階のトレーニングしか必要としない簡潔なエンドツーエンドモデルチューブTKを提案する。
論文 参考訳(メタデータ) (2020-06-10T06:45:05Z) - EBBINNOT: A Hardware Efficient Hybrid Event-Frame Tracker for Stationary
Dynamic Vision Sensors [5.674895233111088]
本稿では,静止型ニューロモルフィックセンサによって記録された物体を検知・追跡するための複合イベントフレーム手法を提案する。
静的DVSの背景除去特性を活用するために,フレーム内のイベントの有無を通知するイベントベースバイナリ画像生成を提案する。
静止DVSベースのトラフィック監視ソリューションが、同時に記録されたRGBフレームベースの方法と比較されるのは、これが初めてである。
論文 参考訳(メタデータ) (2020-05-31T03:01:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。