論文の概要: Similarity-Guided Layer-Adaptive Vision Transformer for UAV Tracking
- arxiv url: http://arxiv.org/abs/2503.06625v1
- Date: Sun, 09 Mar 2025 14:02:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:48:42.047559
- Title: Similarity-Guided Layer-Adaptive Vision Transformer for UAV Tracking
- Title(参考訳): UAV追従のための類似性誘導層適応型視覚変換器
- Authors: Chaocan Xue, Bineng Zhong, Qihua Liang, Yaozong Zheng, Ning Li, Yuanliang Xue, Shuxiang Song,
- Abstract要約: ヴィジュアル・トランスフォーマー(ViT)は、視覚追跡のための一般的なバックボーンとして登場した。
無人航空機(UAV)の追跡にはViTは面倒すぎる。
本稿では,ViTの構造を最適化する類似性誘導層適応手法を提案する。
- 参考スコア(独自算出の注目度): 11.602484345266484
- License:
- Abstract: Vision transformers (ViTs) have emerged as a popular backbone for visual tracking. However, complete ViT architectures are too cumbersome to deploy for unmanned aerial vehicle (UAV) tracking which extremely emphasizes efficiency. In this study, we discover that many layers within lightweight ViT-based trackers tend to learn relatively redundant and repetitive target representations. Based on this observation, we propose a similarity-guided layer adaptation approach to optimize the structure of ViTs. Our approach dynamically disables a large number of representation-similar layers and selectively retains only a single optimal layer among them, aiming to achieve a better accuracy-speed trade-off. By incorporating this approach into existing ViTs, we tailor previously complete ViT architectures into an efficient similarity-guided layer-adaptive framework, namely SGLATrack, for real-time UAV tracking. Extensive experiments on six tracking benchmarks verify the effectiveness of the proposed approach, and show that our SGLATrack achieves a state-of-the-art real-time speed while maintaining competitive tracking precision. Codes and models are available at https://github.com/GXNU-ZhongLab/SGLATrack.
- Abstract(参考訳): ヴィジュアル・トランスフォーマー(ViT)は、視覚追跡のための一般的なバックボーンとして登場した。
しかし、完全なViTアーキテクチャーは、効率を非常に強調する無人航空機(UAV)の追跡に配備するには面倒すぎる。
本研究では、軽量なViTトラッカー内の多くの層が比較的冗長かつ反復的なターゲット表現を学習する傾向があることを明らかにする。
そこで本研究では,ViTの構造を最適化する類似性誘導層適応手法を提案する。
提案手法では,多数の表現類似層を動的に無効にし,一つの最適層のみを選択的に保持し,高精度かつ高速なトレードオフを実現する。
このアプローチを既存の ViT に組み込むことで,従来完成していた ViT アーキテクチャを,リアルタイム UAV トラッキングのための効率的な類似性誘導層適応フレームワーク SGLATrack にカスタマイズする。
6つの追跡ベンチマークによる大規模実験により提案手法の有効性が検証され、我々のSGLATrackが競合追跡精度を維持しながら最先端のリアルタイム速度を達成することを示す。
コードとモデルはhttps://github.com/GXNU-ZhongLab/SGLATrack.comで公開されている。
関連論文リスト
- Learning Adaptive and View-Invariant Vision Transformer with Multi-Teacher Knowledge Distillation for Real-Time UAV Tracking [15.597151507814429]
AVTrackは,リアルタイムなUAV追跡のための変圧器ブロックを選択的に活性化するアダプティブフレームワークである。
視角の極端な変化に伴う課題に対処するために,相互情報(MI)を用いたビュー不変表現を提案する。
AVTrack-MDと呼ばれる新しいMIベースの多教師知識蒸留(MD)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-28T03:57:44Z) - Learning Motion Blur Robust Vision Transformers with Dynamic Early Exit for Real-Time UAV Tracking [14.382072224997074]
トレーニング済みのViTバックボーンを使用したシングルストリームアーキテクチャでは、パフォーマンス、効率、堅牢性が改善されている。
リアルタイムなUAV追跡のためにTransformerブロックを動的に終了する適応型フレームワークにすることで、このフレームワークの効率を向上する。
また, 動きのぼかし処理におけるViTsの有効性も改善した。これは, UAV, 追跡対象の速さ, あるいはその両方によって生じるUAVトラッキングの共通問題である。
論文 参考訳(メタデータ) (2024-07-07T14:10:04Z) - LW-DETR: A Transformer Replacement to YOLO for Real-Time Detection [63.780355815743135]
リアルタイム物体検出においてYOLOよりも優れた軽量検出変換器LW-DETRを提案する。
アーキテクチャは、ViTエンコーダ、プロジェクタ、浅いDETRデコーダの単純なスタックである。
論文 参考訳(メタデータ) (2024-06-05T17:07:24Z) - Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。
DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。
複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文 参考訳(メタデータ) (2024-03-26T12:31:58Z) - AViTMP: A Tracking-Specific Transformer for Single-Branch Visual Tracking [17.133735660335343]
本稿では,AViTMP(Adaptive ViT Model Prediction Tracker)を提案する。
この方法は、初めて識別モデルで単一ブランチネットワークをブリッジする。
AViTMPは、特に長期追跡とロバスト性の観点から、最先端のパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2023-10-30T13:48:04Z) - PriViT: Vision Transformers for Fast Private Inference [55.36478271911595]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションのための最先端のディープモデルのバックボーンとして登場した。
ViTは、多くの非ポリノミカル操作のため、セキュアなマルチパーティプロトコルを使用したプライベート推論には適していない。
予測精度を維持しつつ,ViTの非線形性を選択的に"テイラー化"するアルゴリズムであるPriViTを提案する。
論文 参考訳(メタデータ) (2023-10-06T21:45:05Z) - SGDViT: Saliency-Guided Dynamic Vision Transformer for UAV Tracking [12.447854608181833]
本研究は、UAV追跡のための新しいサリエンシ誘導動的視覚変換器(SGDViT)を提案する。
提案手法は,クロスコリレーション操作を洗練させるために,タスク固有の新たなオブジェクト・サリエンシ・マイニング・ネットワークを設計する。
軽量な塩分フィルタリング変換器は、さらに塩分情報を洗練し、外観情報に焦点を当てる。
論文 参考訳(メタデータ) (2023-03-08T05:01:00Z) - ProContEXT: Exploring Progressive Context Transformer for Tracking [20.35886416084831]
既存のVisual Object Tracking (VOT)は、テンプレートとして第1フレームのターゲット領域のみを取る。
これにより、フレーム間のオブジェクトの外観の変化を考慮できないため、素早く変化し、混雑するシーンでトラッキングが必然的に失敗する。
私たちはプログレッシブコンテキストでフレームワークを改訂しました。
Transformer Tracker (ProContEXT) は空間的・時間的文脈を利用して物体の動きの軌跡を予測する。
論文 参考訳(メタデータ) (2022-10-27T14:47:19Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Efficient Visual Tracking with Exemplar Transformers [98.62550635320514]
本稿では,リアルタイム物体追跡のための効率的な変換器であるExemplar Transformerを紹介する。
Exemplar Transformerレイヤを組み込んだビジュアルトラッカーであるE.T.Trackは、CPU上で47fpsで動作する。
これは、他のトランスモデルよりも最大8倍高速である。
論文 参考訳(メタデータ) (2021-12-17T18:57:54Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。