論文の概要: Learning Occlusion-Robust Vision Transformers for Real-Time UAV Tracking
- arxiv url: http://arxiv.org/abs/2504.09228v1
- Date: Sat, 12 Apr 2025 14:06:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:52:18.671294
- Title: Learning Occlusion-Robust Vision Transformers for Real-Time UAV Tracking
- Title(参考訳): リアルタイムUAV追跡のためのオクルージョン・ロバスト視覚変換器の学習
- Authors: You Wu, Xucheng Wang, Xiangyang Yang, Mengyuan Liu, Dan Zeng, Hengzhou Ye, Shuiwang Li,
- Abstract要約: Vision Transformer (ViT) バックボーンを用いたシングルストリームアーキテクチャは、リアルタイムUAVトラッキングに大きな可能性を示している。
UAV追跡のためのViTに基づいて,Occlusion-Robust Representation (ORR) の学習を提案する。
また,よりコンパクトなトラッカーを作成するために,適応的特徴量に基づく知識蒸留法(AFKD)を提案する。
- 参考スコア(独自算出の注目度): 11.146155422858824
- License:
- Abstract: Single-stream architectures using Vision Transformer (ViT) backbones show great potential for real-time UAV tracking recently. However, frequent occlusions from obstacles like buildings and trees expose a major drawback: these models often lack strategies to handle occlusions effectively. New methods are needed to enhance the occlusion resilience of single-stream ViT models in aerial tracking. In this work, we propose to learn Occlusion-Robust Representations (ORR) based on ViTs for UAV tracking by enforcing an invariance of the feature representation of a target with respect to random masking operations modeled by a spatial Cox process. Hopefully, this random masking approximately simulates target occlusions, thereby enabling us to learn ViTs that are robust to target occlusion for UAV tracking. This framework is termed ORTrack. Additionally, to facilitate real-time applications, we propose an Adaptive Feature-Based Knowledge Distillation (AFKD) method to create a more compact tracker, which adaptively mimics the behavior of the teacher model ORTrack according to the task's difficulty. This student model, dubbed ORTrack-D, retains much of ORTrack's performance while offering higher efficiency. Extensive experiments on multiple benchmarks validate the effectiveness of our method, demonstrating its state-of-the-art performance. Codes is available at https://github.com/wuyou3474/ORTrack.
- Abstract(参考訳): Vision Transformer (ViT) バックボーンを使用したシングルストリームアーキテクチャは、最近、リアルタイムUAVトラッキングに大きな可能性を示している。
しかし、建物や木などの障害物からの頻繁にの閉塞は大きな欠点を露呈する:これらのモデルは、閉塞を効果的に扱うための戦略を欠いていることが多い。
航空機追尾におけるシングルストリームVTモデルの閉塞抵抗性を高めるために, 新たな手法が必要である。
本研究では,空間コックスプロセスによってモデル化されたランダムマスキング操作に対して,ターゲットの特徴表現の不変性を強制することにより,UAV追跡のためのViTに基づいてOcclusion-Robust Representations (ORR)を学習することを提案する。
好ましくは、このランダムマスクはターゲットの閉塞をほぼシミュレートするので、UAV追跡のためのターゲットの閉塞に頑健なViTを学習することができる。
このフレームワークはORTrackと呼ばれている。
さらに,タスクの難易度に応じて教師モデルORTrackの動作を適応的に模倣する,よりコンパクトなトラッカーを作成するための適応的特徴ベース知識蒸留法 (AFKD) を提案する。
この学生モデルはORTrack-Dと呼ばれ、ORTrackの性能の多くを保持し、高い効率を提供する。
複数のベンチマークによる大規模な実験により,提案手法の有効性が検証され,その最先端性能が実証された。
Codesはhttps://github.com/wuyou3474/ORTrack.comから入手できる。
関連論文リスト
- Learning Adaptive and View-Invariant Vision Transformer with Multi-Teacher Knowledge Distillation for Real-Time UAV Tracking [15.597151507814429]
AVTrackは,リアルタイムなUAV追跡のための変圧器ブロックを選択的に活性化するアダプティブフレームワークである。
視角の極端な変化に伴う課題に対処するために,相互情報(MI)を用いたビュー不変表現を提案する。
AVTrack-MDと呼ばれる新しいMIベースの多教師知識蒸留(MD)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-28T03:57:44Z) - A Cross-Scene Benchmark for Open-World Drone Active Tracking [54.235808061746525]
Drone Visual Active Trackingは、視覚的な観察に基づいてモーションシステムを制御することで、対象物を自律的に追跡することを目的としている。
DATと呼ばれるオープンワールドドローンアクティブトラッキングのためのクロスシーンクロスドメインベンチマークを提案する。
また、R-VATと呼ばれる強化学習に基づくドローン追跡手法を提案する。
論文 参考訳(メタデータ) (2024-12-01T09:37:46Z) - SFTrack: A Robust Scale and Motion Adaptive Algorithm for Tracking Small and Fast Moving Objects [2.9803250365852443]
本稿では,無人航空機(UAV)映像における多物体追跡の問題に対処する。
交通監視システムや警察によるリアルタイム容疑者追跡など、様々なUAVアプリケーションにおいて重要な役割を果たしている。
低信頼度検出から対象物体の追跡を開始する新しい追跡戦略を提案する。
論文 参考訳(メタデータ) (2024-10-26T05:09:20Z) - Progressive Representation Learning for Real-Time UAV Tracking [20.76053366492599]
本研究では,UAV追跡のための新しいプログレッシブな表現学習フレームワークであるPRL-Trackを提案する。
粗い表現学習では、外観情報と意味情報に依存する2つの革新的な規制が、外観干渉を緩和し、意味情報をキャプチャするために設計されている。
表現の微妙な学習のために、粗いオブジェクト表現を介在させる新しい階層的モデリングジェネレータを開発した。
論文 参考訳(メタデータ) (2024-09-25T06:16:32Z) - Learning Motion Blur Robust Vision Transformers with Dynamic Early Exit for Real-Time UAV Tracking [14.382072224997074]
トレーニング済みのViTバックボーンを使用したシングルストリームアーキテクチャでは、パフォーマンス、効率、堅牢性が改善されている。
リアルタイムなUAV追跡のためにTransformerブロックを動的に終了する適応型フレームワークにすることで、このフレームワークの効率を向上する。
また, 動きのぼかし処理におけるViTsの有効性も改善した。これは, UAV, 追跡対象の速さ, あるいはその両方によって生じるUAVトラッキングの共通問題である。
論文 参考訳(メタデータ) (2024-07-07T14:10:04Z) - Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。
DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。
複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文 参考訳(メタデータ) (2024-03-26T12:31:58Z) - BEVTrack: A Simple and Strong Baseline for 3D Single Object Tracking in Bird's-Eye View [56.77287041917277]
3Dシングルオブジェクトトラッキング(SOT)はコンピュータビジョンの基本課題であり、自律運転のようなアプリケーションに不可欠なことを証明している。
本稿では,単純で効果的なベースライン手法であるBEVTrackを提案する。
Bird's-Eye View (BEV) における目標運動を推定して追跡を行うことにより、BEVTrackは、ネットワーク設計、トレーニング目標、トラッキングパイプラインなど、様々な側面から驚くほどの単純さを示しながら、優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-09-05T12:42:26Z) - Cascaded Regression Tracking: Towards Online Hard Distractor
Discrimination [202.2562153608092]
本稿では,2段階の逐次回帰トラッカーを提案する。
第1段階では, 容易に同定可能な負の候補を抽出する。
第2段階では、残留するあいまいな硬質試料をダブルチェックするために、離散サンプリングに基づくリッジ回帰を設計する。
論文 参考訳(メタデータ) (2020-06-18T07:48:01Z) - TubeTK: Adopting Tubes to Track Multi-Object in a One-Step Training
Model [51.14840210957289]
マルチオブジェクトトラッキングは、長い間研究されてきた基本的な視覚問題である。
Tracking by Detection (TBD)の成功にもかかわらず、この2段階の手法はエンドツーエンドでトレーニングするには複雑すぎる。
本稿では,短いビデオクリップ中の物体の時間空間位置を示すために,バウンディングチューブを導入することで,一段階のトレーニングしか必要としない簡潔なエンドツーエンドモデルチューブTKを提案する。
論文 参考訳(メタデータ) (2020-06-10T06:45:05Z) - Robust Visual Object Tracking with Two-Stream Residual Convolutional
Networks [62.836429958476735]
視覚追跡のための2ストリーム残差畳み込みネットワーク(TS-RCN)を提案する。
私たちのTS-RCNは、既存のディープラーニングベースのビジュアルトラッカーと統合することができます。
トラッキング性能をさらに向上するため、我々はResNeXtを特徴抽出バックボーンとして採用する。
論文 参考訳(メタデータ) (2020-05-13T19:05:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。