Fugu-MT 論文翻訳(概要): Exploiting Image-Related Inductive Biases in Single-Branch Visual Tracking

論文の概要: Exploiting Image-Related Inductive Biases in Single-Branch Visual Tracking

arxiv url: http://arxiv.org/abs/2310.19542v2
Date: Sat, 11 Nov 2023 13:56:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-14 19:49:21.684765
Title: Exploiting Image-Related Inductive Biases in Single-Branch Visual Tracking
Title（参考訳）: 単発視覚追跡における画像関連誘導バイアスの活用
Authors: Chuanming Tang, Kai Wang, Joost van de Weijer, Jianlin Zhang, Yongmei Huang
Abstract要約: 本稿では,単一ブランチネットワークと識別モデルとのギャップを埋めるために,適応型ViTモデル予測トラッカ(AViTMP)を提案する。 AViTMPは最先端のパフォーマンス、特に長期追跡と堅牢性を実現している。
参考スコア（独自算出の注目度）: 18.381858982041226
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite achieving state-of-the-art performance in visual tracking, recent single-branch trackers tend to overlook the weak prior assumptions associated with the Vision Transformer (ViT) encoder and inference pipeline. Moreover, the effectiveness of discriminative trackers remains constrained due to the adoption of the dual-branch pipeline. To tackle the inferior effectiveness of the vanilla ViT, we propose an Adaptive ViT Model Prediction tracker (AViTMP) to bridge the gap between single-branch network and discriminative models. Specifically, in the proposed encoder AViT-Enc, we introduce an adaptor module and joint target state embedding to enrich the dense embedding paradigm based on ViT. Then, we combine AViT-Enc with a dense-fusion decoder and a discriminative target model to predict accurate location. Further, to mitigate the limitations of conventional inference practice, we present a novel inference pipeline called CycleTrack, which bolsters the tracking robustness in the presence of distractors via bidirectional cycle tracking verification. Lastly, we propose a dual-frame update inference strategy that adeptively handles significant challenges in long-term scenarios. In the experiments, we evaluate AViTMP on ten tracking benchmarks for a comprehensive assessment, including LaSOT, LaSOTExtSub, AVisT, etc. The experimental results unequivocally establish that AViTMP attains state-of-the-art performance, especially on long-time tracking and robustness.
Abstract（参考訳）: 視覚追跡における最先端のパフォーマンスにもかかわらず、最近のシングルブランチトラッカーは、ビジョントランスフォーマー(ViT)エンコーダと推論パイプラインに関連する、弱い前提を見逃す傾向にある。さらに, 判別トラッカの有効性は, デュアルブランチパイプラインの採用により制限されている。単分岐ネットワークと識別モデルとのギャップを埋めるための適応型ViTモデル予測トラッカー(AViTMP)を提案する。具体的には,提案するエンコーダavit-encにおいて,vitに基づく密組込みパラダイムを豊かにするために,アダプタモジュールとジョイントターゲット状態埋め込みを導入する。次にavit-encと密輸デコーダと判別対象モデルを組み合わせて正確な位置を推定する。さらに,従来の推論手法の限界を緩和するため,双方向のサイクルトラッキング検証により,トラクタの存在下でのロバスト性を向上するCycleTrackという新しい推論パイプラインを提案する。最後に,長期的なシナリオにおいて大きな課題を積極的に処理する,デュアルフレーム更新推論戦略を提案する。実験では,lasot,lasotextsub,avistなどを含む総合評価のための10のトラッキングベンチマークについてavitmpを評価した。実験結果から,AViTMPが最先端の性能,特に長期追跡とロバスト性を達成したことが明らかとなった。

関連論文リスト

Architecture and evaluation protocol for transformer-based visual object tracking in UAV applications [0.0]
既存のビジュアルトラッカーは複雑なシナリオでは堅牢性に欠けるか、リアルタイムの組込み使用には計算的に要求されすぎている。変換器ベースのトラッカーと拡張カルマンフィルタを組み合わせたモジュール非同期追跡アーキテクチャ(MATA)を提案する。本稿では,ハードウェアに依存しない組込み指向評価プロトコルとNT2Fと呼ばれる新しいメトリクスを導入し,トラッカーが外部の助けなしにトラッキングシーケンスをどれだけ長く維持できるかを定量化する。
論文参考訳（メタデータ） (2026-03-04T10:12:12Z)
A Tri-Modal Dataset and a Baseline System for Tracking Unmanned Aerial Vehicles [74.8162337823142]
MM-UAVはMulti-Modal UAV Trackingの最初の大規模ベンチマークである。データセットは30以上の挑戦的なシナリオにまたがっており、1,321の同期マルチモーダルシーケンスと280万以上の注釈付きフレームがある。データセットを伴って、我々は新しいマルチモーダルマルチUAV追跡フレームワークを提供する。
論文参考訳（メタデータ） (2025-11-23T08:42:17Z)
Tracking the Unstable: Appearance-Guided Motion Modeling for Robust Multi-Object Tracking in UAV-Captured Videos [58.156141601478794]
マルチオブジェクトトラッキング(UAVT)は、ビデオのフレーム間で一貫したアイデンティティを維持しながら、複数のオブジェクトを追跡することを目的としている。既存の手法は、通常、動作キューと外観を別々にモデル化し、それらの相互作用を見渡して、最適下追跡性能をもたらす。本稿では、AMC行列とMTCモジュールの2つの主要コンポーネントを通して、外観と動きの手がかりを利用するAMOTを提案する。
論文参考訳（メタデータ） (2025-08-03T12:06:47Z)
MUST: The First Dataset and Unified Framework for Multispectral UAV Single Object Tracking [17.96400810834486]
第1回大規模マルチスペクトルUAVシングルオブジェクト追跡データセット(MUST)について紹介する。 MUSTには、様々な環境と課題にまたがる250のビデオシーケンスが含まれている。また,スペクトルプロンプトからのスペクトル,空間,時間的特徴をエンコードする新しい追跡フレームワークUNTrackを提案する。
論文参考訳（メタデータ） (2025-03-22T08:47:28Z)
Similarity-Guided Layer-Adaptive Vision Transformer for UAV Tracking [11.602484345266484]
ヴィジュアル・トランスフォーマー(ViT)は、視覚追跡のための一般的なバックボーンとして登場した。無人航空機(UAV)の追跡にはViTは面倒すぎる。本稿では,ViTの構造を最適化する類似性誘導層適応手法を提案する。
論文参考訳（メタデータ） (2025-03-09T14:02:30Z)
SFTrack: A Robust Scale and Motion Adaptive Algorithm for Tracking Small and Fast Moving Objects [2.9803250365852443]
本稿では,無人航空機(UAV)映像における多物体追跡の問題に対処する。交通監視システムや警察によるリアルタイム容疑者追跡など、様々なUAVアプリケーションにおいて重要な役割を果たしている。低信頼度検出から対象物体の追跡を開始する新しい追跡戦略を提案する。
論文参考訳（メタデータ） (2024-10-26T05:09:20Z)
Learning Motion Blur Robust Vision Transformers with Dynamic Early Exit for Real-Time UAV Tracking [14.382072224997074]
トレーニング済みのViTバックボーンを使用したシングルストリームアーキテクチャでは、パフォーマンス、効率、堅牢性が改善されている。リアルタイムなUAV追跡のためにTransformerブロックを動的に終了する適応型フレームワークにすることで、このフレームワークの効率を向上する。また, 動きのぼかし処理におけるViTsの有効性も改善した。これは, UAV, 追跡対象の速さ, あるいはその両方によって生じるUAVトラッキングの共通問題である。
論文参考訳（メタデータ） (2024-07-07T14:10:04Z)
Adaptively Bypassing Vision Transformer Blocks for Efficient Visual Tracking [11.361394596302334]
ABTrackは、効率的な視覚追跡のためにトランスフォーマーブロックを適応的にバイパスする適応型計算フレームワークである。本稿では,トランスブロックをバイパスすべきかどうかを判断するBypass Decision Module (BDM)を提案する。本稿では,各トランスブロックにおけるトークンの潜在表現の次元を小さくする,新しいViTプルーニング手法を提案する。
論文参考訳（メタデータ） (2024-06-12T09:39:18Z)
Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。 DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文参考訳（メタデータ） (2024-03-26T12:31:58Z)
Tracking with Human-Intent Reasoning [64.69229729784008]
この作業では、新しいトラッキングタスクであるインストラクショントラッキングを提案している。ビデオフレーム内で自動的にトラッキングを実行するようにトラッカーに要求する暗黙の追跡命令を提供する。 TrackGPTは複雑な推論ベースの追跡を行うことができる。
論文参考訳（メタデータ） (2023-12-29T03:22:18Z)
Unified Sequence-to-Sequence Learning for Single- and Multi-Modal Visual Object Tracking [64.28025685503376]
SeqTrackは、ビジュアルトラッキングをシーケンス生成タスクとしてキャストし、オブジェクト境界ボックスを自動回帰的に予測する。 SeqTrackv2は補助モダリティのための統一インターフェースとタスクを指定するためのタスクプロンプトトークンのセットを統合している。このシーケンス学習パラダイムは、トラッキングフレームワークを単純化するだけでなく、14の挑戦的なベンチマークで優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2023-04-27T17:56:29Z)
OmniTracker: Unifying Object Tracking by Tracking-with-Detection [119.51012668709502]
OmniTrackerは、完全に共有されたネットワークアーキテクチャ、モデルウェイト、推論パイプラインですべてのトラッキングタスクを解決するために提供されている。 LaSOT、TrackingNet、DAVIS16-17、MOT17、MOTS20、YTVIS19を含む7つの追跡データセットの実験は、OmniTrackerがタスク固有の追跡モデルと統合された追跡モデルの両方よりも、オンパーまたはそれ以上の結果を達成することを示した。
論文参考訳（メタデータ） (2023-03-21T17:59:57Z)
SGDViT: Saliency-Guided Dynamic Vision Transformer for UAV Tracking [12.447854608181833]
本研究は、UAV追跡のための新しいサリエンシ誘導動的視覚変換器(SGDViT)を提案する。提案手法は,クロスコリレーション操作を洗練させるために,タスク固有の新たなオブジェクト・サリエンシ・マイニング・ネットワークを設計する。軽量な塩分フィルタリング変換器は、さらに塩分情報を洗練し、外観情報に焦点を当てる。
論文参考訳（メタデータ） (2023-03-08T05:01:00Z)
Unsupervised Learning of Accurate Siamese Tracking [68.58171095173056]
分類枝と回帰枝の両方で時間対応を学習できる新しい教師なし追跡フレームワークを提案する。トラッカーは、トラッカーネットやLaSOTのような大規模データセット上で、教師なしの手法と同等の性能を発揮する。
論文参考訳（メタデータ） (2022-04-04T13:39:43Z)
Transformer Meets Tracker: Exploiting Temporal Context for Robust Visual Tracking [47.205979159070445]
個々のビデオフレームをブリッジし、堅牢なオブジェクト追跡のためのトランスフォーマーアーキテクチャを通じて、時間的コンテキストを探索する。自然言語処理タスクにおける変換器の古典的な使用とは異なり、エンコーダとデコーダを2つの並列分岐に分離する。本手法は,有意な追跡ベンチマークに関する最新の記録を複数設定する。
論文参考訳（メタデータ） (2021-03-22T09:20:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。