論文の概要: Learning Motion Blur Robust Vision Transformers with Dynamic Early Exit for Real-Time UAV Tracking
- arxiv url: http://arxiv.org/abs/2407.05383v1
- Date: Sun, 7 Jul 2024 14:10:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 19:57:34.651023
- Title: Learning Motion Blur Robust Vision Transformers with Dynamic Early Exit for Real-Time UAV Tracking
- Title(参考訳): リアルタイムUAV追跡のための動的初期出力を用いた動作ブラストロバスト視覚変換器の学習
- Authors: You Wu, Xucheng Wang, Dan Zeng, Hengzhou Ye, Xiaolan Xie, Qijun Zhao, Shuiwang Li,
- Abstract要約: トレーニング済みのViTバックボーンを使用したシングルストリームアーキテクチャでは、パフォーマンス、効率、堅牢性が改善されている。
リアルタイムなUAV追跡のためにTransformerブロックを動的に終了する適応型フレームワークにすることで、このフレームワークの効率を向上する。
また, 動きのぼかし処理におけるViTsの有効性も改善した。これは, UAV, 追跡対象の速さ, あるいはその両方によって生じるUAVトラッキングの共通問題である。
- 参考スコア(独自算出の注目度): 14.382072224997074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the surge in the adoption of single-stream architectures utilizing pre-trained ViT backbones represents a promising advancement in the field of generic visual tracking. By integrating feature extraction and fusion into a cohesive framework, these architectures offer improved performance, efficiency, and robustness. However, there has been limited exploration into optimizing these frameworks for UAV tracking. In this paper, we boost the efficiency of this framework by tailoring it into an adaptive computation framework that dynamically exits Transformer blocks for real-time UAV tracking. The motivation behind this is that tracking tasks with fewer challenges can be adequately addressed using low-level feature representations. Simpler tasks can often be handled with less demanding, lower-level features. This approach allows the model use computational resources more efficiently by focusing on complex tasks and conserving resources for easier ones. Another significant enhancement introduced in this paper is the improved effectiveness of ViTs in handling motion blur, a common issue in UAV tracking caused by the fast movements of either the UAV, the tracked objects, or both. This is achieved by acquiring motion blur robust representations through enforcing invariance in the feature representation of the target with respect to simulated motion blur. The proposed approach is dubbed BDTrack. Extensive experiments conducted on five tracking benchmarks validate the effectiveness and versatility of our approach, establishing it as a cutting-edge solution in real-time UAV tracking. Code is released at: https://github.com/wuyou3474/BDTrack.
- Abstract(参考訳): 近年、トレーニング済みのViTバックボーンを用いたシングルストリームアーキテクチャの採用が急増していることは、汎用的な視覚追跡の分野において有望な進歩を示している。
機能抽出と統合を結合フレームワークに統合することで、これらのアーキテクチャはパフォーマンス、効率、堅牢性を改善します。
しかし、これらのフレームワークをUAV追跡に最適化する研究は限られている。
本稿では,リアルタイムなUAVトラッキングのために,Transformerブロックを動的に終了する適応型計算フレームワークに調整することで,このフレームワークの効率を向上する。
この背景にある動機は、課題が少ないタスクを追跡することは、低レベルの特徴表現を使って適切に対処できるということです。
単純なタスクは、要求の少ない低レベルの機能で処理されることが多い。
このアプローチにより、複雑なタスクに集中し、より簡単なタスクのためにリソースを保存することで、モデルがより効率的に計算資源を使用することができる。
この論文で導入されたもう1つの顕著な拡張は、動きのぼかし処理におけるViTsの有効性の改善である。
これは、シミュレーションされた動きのぼかしに対する目標の特徴表現の不変性を強制することにより、動きのぼかしのロバスト表現を取得することで達成される。
提案されたアプローチはBDTrackと呼ばれている。
5つのトラッキングベンチマークで実施した大規模な実験は、我々のアプローチの有効性と汎用性を検証し、リアルタイムUAVトラッキングにおける最先端のソリューションとして確立した。
コードはhttps://github.com/wuyou3474/BDTrack.comで公開されている。
関連論文リスト
- SFTrack: A Robust Scale and Motion Adaptive Algorithm for Tracking Small and Fast Moving Objects [2.9803250365852443]
本稿では,無人航空機(UAV)映像における多物体追跡の問題に対処する。
交通監視システムや警察によるリアルタイム容疑者追跡など、様々なUAVアプリケーションにおいて重要な役割を果たしている。
低信頼度検出から対象物体の追跡を開始する新しい追跡戦略を提案する。
論文 参考訳(メタデータ) (2024-10-26T05:09:20Z) - Adaptively Bypassing Vision Transformer Blocks for Efficient Visual Tracking [11.361394596302334]
ABTrackは、効率的な視覚追跡のためにトランスフォーマーブロックを適応的にバイパスする適応型計算フレームワークである。
本稿では,トランスブロックをバイパスすべきかどうかを判断するBypass Decision Module (BDM)を提案する。
本稿では,各トランスブロックにおけるトークンの潜在表現の次元を小さくする,新しいViTプルーニング手法を提案する。
論文 参考訳(メタデータ) (2024-06-12T09:39:18Z) - Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。
DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。
複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文 参考訳(メタデータ) (2024-03-26T12:31:58Z) - BEVTrack: A Simple and Strong Baseline for 3D Single Object Tracking in Bird's-Eye View [56.77287041917277]
3Dシングルオブジェクトトラッキング(SOT)はコンピュータビジョンの基本課題であり、自律運転のようなアプリケーションに不可欠なことを証明している。
本稿では,単純で効果的なベースライン手法であるBEVTrackを提案する。
Bird's-Eye View (BEV) における目標運動を推定して追跡を行うことにより、BEVTrackは、ネットワーク設計、トレーニング目標、トラッキングパイプラインなど、様々な側面から驚くほどの単純さを示しながら、優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-09-05T12:42:26Z) - Learning Disentangled Representation with Mutual Information
Maximization for Real-Time UAV Tracking [1.0541541376305243]
本稿では,相互情報(DR-MIM)による不整合表現を利用して,UAV追跡の精度と効率を向上させる。
我々のDR-MIMトラッカーは最先端のUAVトラッカーよりも優れています。
論文 参考訳(メタデータ) (2023-08-20T13:16:15Z) - MotionTrack: Learning Motion Predictor for Multiple Object Tracking [68.68339102749358]
本研究では,学習可能なモーション予測器を中心に,新しいモーショントラッカーであるMotionTrackを紹介する。
実験結果から、MotionTrackはDancetrackやSportsMOTといったデータセット上での最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-06-05T04:24:11Z) - SGDViT: Saliency-Guided Dynamic Vision Transformer for UAV Tracking [12.447854608181833]
本研究は、UAV追跡のための新しいサリエンシ誘導動的視覚変換器(SGDViT)を提案する。
提案手法は,クロスコリレーション操作を洗練させるために,タスク固有の新たなオブジェクト・サリエンシ・マイニング・ネットワークを設計する。
軽量な塩分フィルタリング変換器は、さらに塩分情報を洗練し、外観情報に焦点を当てる。
論文 参考訳(メタデータ) (2023-03-08T05:01:00Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - Distractor-Aware Fast Tracking via Dynamic Convolutions and MOT
Philosophy [63.91005999481061]
実用的長期トラッカーは、典型的には3つの重要な特性を含む。
効率的なモデル設計、効果的なグローバル再検出戦略、堅牢な気晴らし認識メカニズム。
動的畳み込み (d-convs) と多重オブジェクト追跡 (MOT) の哲学を用いて, 注意をそらした高速トラッキングを実現するための2タスクトラッキングフレームワーク(DMTrack)を提案する。
我々のトラッカーはLaSOT, OxUvA, TLP, VOT2018LT, VOT 2019LTベンチマークの最先端性能を実現し, リアルタイム3倍高速に動作させる。
論文 参考訳(メタデータ) (2021-04-25T00:59:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。