論文の概要: Learning an Adaptive and View-Invariant Vision Transformer for Real-Time UAV Tracking
- arxiv url: http://arxiv.org/abs/2412.20002v3
- Date: Fri, 15 Aug 2025 05:08:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.044722
- Title: Learning an Adaptive and View-Invariant Vision Transformer for Real-Time UAV Tracking
- Title(参考訳): リアルタイムUAV追跡のための適応的・ビュー不変視覚変換器の学習
- Authors: You Wu, Yongxin Li, Mengyuan Liu, Xucheng Wang, Xiangyang Yang, Hengzhou Ye, Dan Zeng, Qijun Zhao, Shuiwang Li,
- Abstract要約: トランスフォーマーベースのモデルでは、視覚的トラッキングが改善されているが、ほとんどの場合、リソースデバイス上でリアルタイムに実行することはできない。
アクティベーションモジュール(AM)を介してトランスフォーマーブロックを適応的に活性化する適応追跡フレームワークであるAVTrackを提案する。
極端視点変動に対処するために,相互情報(MI)を用いたビューイン表現の学習を提案する。
さらに,新しいMIベースのマルチ教師ナレッジフレームワークを組み込んだ拡張トラッカーであるAVTrack-MDを提案する。
- 参考スコア(独自算出の注目度): 15.597151507814429
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based models have improved visual tracking, but most still cannot run in real time on resource-limited devices, especially for unmanned aerial vehicle (UAV) tracking. To achieve a better balance between performance and efficiency, we propose AVTrack, an adaptive computation tracking framework that adaptively activates transformer blocks through an Activation Module (AM), which dynamically optimizes the ViT architecture by selectively engaging relevant components. To address extreme viewpoint variations, we propose to learn view-invariant representations via mutual information (MI) maximization. In addition, we propose AVTrack-MD, an enhanced tracker incorporating a novel MI maximization-based multi-teacher knowledge distillation framework. Leveraging multiple off-the-shelf AVTrack models as teachers, we maximize the MI between their aggregated softened features and the corresponding softened feature of the student model, improving the generalization and performance of the student, especially under noisy conditions. Extensive experiments show that AVTrack-MD achieves performance comparable to AVTrack's performance while reducing model complexity and boosting average tracking speed by over 17\%. Codes is available at: https://github.com/wuyou3474/AVTrack.
- Abstract(参考訳): トランスフォーマーベースのモデルでは、視覚的トラッキングが改善されているが、ほとんどのモデルでは、特に無人航空機(UAV)のトラッキングにおいて、リソース制限されたデバイスでリアルタイムに実行することはできない。
性能と効率のバランスを改善するために,アクティベーションモジュール (AM) を通じて変圧器ブロックを適応的に活性化する適応型計算追跡フレームワークであるAVTrackを提案する。
極度の視点変化に対処するために,相互情報(MI)の最大化によるビュー不変表現の学習を提案する。
さらに,MI最大化に基づく多教師知識蒸留フレームワークを取り入れた拡張トラッカーであるAVTrack-MDを提案する。
複数の市販のAVTrackモデルを教師として活用することにより、学生モデルの集合ソフト化特徴とそれに対応するソフト化特徴との間のMIを最大化し、特に騒音条件下での生徒の一般化と性能を向上させる。
AVTrack-MDは、モデル複雑性を低減し、平均追跡速度を17倍以上向上させながら、AVTrackの性能に匹敵する性能を達成する。
コードは、https://github.com/wuyou3474/AVTrack.comで入手できる。
関連論文リスト
- Tracking the Unstable: Appearance-Guided Motion Modeling for Robust Multi-Object Tracking in UAV-Captured Videos [58.156141601478794]
マルチオブジェクトトラッキング(UAVT)は、ビデオのフレーム間で一貫したアイデンティティを維持しながら、複数のオブジェクトを追跡することを目的としている。
既存の手法は、通常、動作キューと外観を別々にモデル化し、それらの相互作用を見渡して、最適下追跡性能をもたらす。
本稿では、AMC行列とMTCモジュールの2つの主要コンポーネントを通して、外観と動きの手がかりを利用するAMOTを提案する。
論文 参考訳(メタデータ) (2025-08-03T12:06:47Z) - DARTer: Dynamic Adaptive Representation Tracker for Nighttime UAV Tracking [1.515687944002438]
夜間UAV追跡は、過度な照明の変動と視点の変化による重大な課題を呈する。
textbfDARTer(textbfDynamic textbfAdaptive textbfRepresentation textbfTracker)は、夜間UAVシナリオ用に設計されたエンドツーエンド追跡フレームワークである。
論文 参考訳(メタデータ) (2025-05-01T05:24:14Z) - Learning Occlusion-Robust Vision Transformers for Real-Time UAV Tracking [11.146155422858824]
Vision Transformer (ViT) バックボーンを用いたシングルストリームアーキテクチャは、リアルタイムUAVトラッキングに大きな可能性を示している。
UAV追跡のためのViTに基づいて,Occlusion-Robust Representation (ORR) の学習を提案する。
また,よりコンパクトなトラッカーを作成するために,適応的特徴量に基づく知識蒸留法(AFKD)を提案する。
論文 参考訳(メタデータ) (2025-04-12T14:06:50Z) - Similarity-Guided Layer-Adaptive Vision Transformer for UAV Tracking [11.602484345266484]
ヴィジュアル・トランスフォーマー(ViT)は、視覚追跡のための一般的なバックボーンとして登場した。
無人航空機(UAV)の追跡にはViTは面倒すぎる。
本稿では,ViTの構造を最適化する類似性誘導層適応手法を提案する。
論文 参考訳(メタデータ) (2025-03-09T14:02:30Z) - Transforming Vision Transformer: Towards Efficient Multi-Task Asynchronous Learning [59.001091197106085]
Vision TransformerのためのMulti-Task Learning (MTL)は、複数のタスクを同時に処理することでモデル能力を向上させることを目的としている。
最近の研究は、Mixture-of-Experts(MoE)構造の設計とローランド適応(LoRA)によるマルチタスク学習の効率化に重点を置いている。
本稿では,事前学習した視覚変換器を効率的なマルチタスク学習器に変換することで,EMTAL(Efficient Multi-Task Learning)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-12T17:41:23Z) - A Cross-Scene Benchmark for Open-World Drone Active Tracking [54.235808061746525]
Drone Visual Active Trackingは、視覚的な観察に基づいてモーションシステムを制御することで、対象物を自律的に追跡することを目的としている。
DATと呼ばれるオープンワールドドローンアクティブトラッキングのためのクロスシーンクロスドメインベンチマークを提案する。
また、R-VATと呼ばれる強化学習に基づくドローン追跡手法を提案する。
論文 参考訳(メタデータ) (2024-12-01T09:37:46Z) - T2V-Turbo-v2: Enhancing Video Generation Model Post-Training through Data, Reward, and Conditional Guidance Design [79.7289790249621]
提案手法であるT2V-Turbo-v2は、様々な監視信号を統合することにより、大幅な進歩をもたらす。
特定の学習目標に対するデータセットの調整の重要性を強調した。
トレーニングデータセットから動作ガイダンスを抽出し,ODEソルバに組み込むことにより,このアプローチの可能性を示す。
論文 参考訳(メタデータ) (2024-10-08T04:30:06Z) - Learning Motion Blur Robust Vision Transformers with Dynamic Early Exit for Real-Time UAV Tracking [14.382072224997074]
トレーニング済みのViTバックボーンを使用したシングルストリームアーキテクチャでは、パフォーマンス、効率、堅牢性が改善されている。
リアルタイムなUAV追跡のためにTransformerブロックを動的に終了する適応型フレームワークにすることで、このフレームワークの効率を向上する。
また, 動きのぼかし処理におけるViTsの有効性も改善した。これは, UAV, 追跡対象の速さ, あるいはその両方によって生じるUAVトラッキングの共通問題である。
論文 参考訳(メタデータ) (2024-07-07T14:10:04Z) - Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。
DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。
複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文 参考訳(メタデータ) (2024-03-26T12:31:58Z) - Tiny Multi-Agent DRL for Twins Migration in UAV Metaverses: A Multi-Leader Multi-Follower Stackelberg Game Approach [57.15309977293297]
無人航空機(UAV)とメタバースの相乗効果は、UAVメタバースと呼ばれる新しいパラダイムを生み出している。
本稿では,UAVメタバースにおける効率的なUTマイグレーションのためのプルーニング技術に基づく,機械学習に基づく小さなゲームフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-18T02:14:13Z) - VeCAF: Vision-language Collaborative Active Finetuning with Training Objective Awareness [56.87603097348203]
VeCAFはラベルと自然言語アノテーションを使用して、PVMの微調整のためのパラメトリックデータ選択を行う。
VeCAFは微調整の目的を取り入れて重要なデータポイントを選択し、PVMをより高速な収束に向けて効果的に導く。
ImageNetでは、VeCAFは最大3.3倍のトレーニングバッチを使用して、完全な微調整に比べて目標のパフォーマンスに到達する。
論文 参考訳(メタデータ) (2024-01-15T17:28:37Z) - Mutual-Learning Knowledge Distillation for Nighttime UAV Tracking [10.170363860678663]
夜間無人航空機(UAV)の追跡は、必要不可欠なプラグアンドプレイの低照度エンハンサーによって促進されている。
本研究は,夜間UAV追跡のための新たな相互学習知識蒸留フレームワークであるMLKDを提案する。
論文 参考訳(メタデータ) (2023-12-13T04:06:18Z) - Divert More Attention to Vision-Language Object Tracking [87.31882921111048]
大規模な視覚言語アノテートビデオと非効果的な視覚言語対話学習が欠如していることは、トラッキングのためのより効果的な視覚言語表現の設計を動機づけている、と我々は主張する。
本稿では,まず,6つの人気追跡ベンチマークで動画をデコレートする属性アノテーション戦略を提案する。
次に,非対称なアーキテクチャ探索とモダリティミキサー(ModaMixer)を提案する,統一適応型VL表現の学習によるトラッキング向上のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-19T15:22:06Z) - SGDViT: Saliency-Guided Dynamic Vision Transformer for UAV Tracking [12.447854608181833]
本研究は、UAV追跡のための新しいサリエンシ誘導動的視覚変換器(SGDViT)を提案する。
提案手法は,クロスコリレーション操作を洗練させるために,タスク固有の新たなオブジェクト・サリエンシ・マイニング・ネットワークを設計する。
軽量な塩分フィルタリング変換器は、さらに塩分情報を洗練し、外観情報に焦点を当てる。
論文 参考訳(メタデータ) (2023-03-08T05:01:00Z) - AttTrack: Online Deep Attention Transfer for Multi-object Tracking [4.5116674432168615]
マルチオブジェクトトラッキング(MOT)は、監視や自動運転といったインテリジェントなビデオ分析アプリケーションにおいて重要なコンポーネントである。
本稿では,複雑なネットワーク(教師)の高レベルな特徴から,学習時間と推論時間の両方で軽量なネットワーク(学生)に知識を伝達することにより,MOTの高速化を目指す。
提案した AttTrack フレームワークは,1) 教師モデルと学生モデルから中間表現を整合させるクロスモデル特徴学習,2) 推論時に2つのモデルの実行をインターリーブすること,3) 教師モデルから更新された予測を事前知識として取り入れ,学生モデルを支援する。
論文 参考訳(メタデータ) (2022-10-16T22:15:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。