論文の概要: Learning Adaptive and View-Invariant Vision Transformer with Multi-Teacher Knowledge Distillation for Real-Time UAV Tracking
- arxiv url: http://arxiv.org/abs/2412.20002v1
- Date: Sat, 28 Dec 2024 03:57:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:06:40.937695
- Title: Learning Adaptive and View-Invariant Vision Transformer with Multi-Teacher Knowledge Distillation for Real-Time UAV Tracking
- Title(参考訳): リアルタイムUAVトラッキングのための多教師知識蒸留を用いた適応型・ビュー不変視覚変換器の学習
- Authors: You Wu, Yongxin Li, Mengyuan Liu, Xucheng Wang, Xiangyang Yang, Hengzhou Ye, Dan Zeng, Qijun Zhao, Shuiwang Li,
- Abstract要約: AVTrackは,リアルタイムなUAV追跡のための変圧器ブロックを選択的に活性化するアダプティブフレームワークである。
視角の極端な変化に伴う課題に対処するために,相互情報(MI)を用いたビュー不変表現を提案する。
AVTrack-MDと呼ばれる新しいMIベースの多教師知識蒸留(MD)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 15.597151507814429
- License:
- Abstract: Visual tracking has made significant strides due to the adoption of transformer-based models. Most state-of-the-art trackers struggle to meet real-time processing demands on mobile platforms with constrained computing resources, particularly for real-time unmanned aerial vehicle (UAV) tracking. To achieve a better balance between performance and efficiency, we introduce AVTrack, an adaptive computation framework designed to selectively activate transformer blocks for real-time UAV tracking. The proposed Activation Module (AM) dynamically optimizes the ViT architecture by selectively engaging relevant components, thereby enhancing inference efficiency without significant compromise to tracking performance. Furthermore, to tackle the challenges posed by extreme changes in viewing angles often encountered in UAV tracking, the proposed method enhances ViTs' effectiveness by learning view-invariant representations through mutual information (MI) maximization. Two effective design principles are proposed in the AVTrack. Building on it, we propose an improved tracker, dubbed AVTrack-MD, which introduces the novel MI maximization-based multi-teacher knowledge distillation (MD) framework. It harnesses the benefits of multiple teachers, specifically the off-the-shelf tracking models from the AVTrack, by integrating and refining their outputs, thereby guiding the learning process of the compact student network. Specifically, we maximize the MI between the softened feature representations from the multi-teacher models and the student model, leading to improved generalization and performance of the student model, particularly in noisy conditions. Extensive experiments on multiple UAV tracking benchmarks demonstrate that AVTrack-MD not only achieves performance comparable to the AVTrack baseline but also reduces model complexity, resulting in a significant 17\% increase in average tracking speed.
- Abstract(参考訳): トランスフォーマーベースのモデルの採用により、ビジュアルトラッキングは大きな進歩を遂げた。
ほとんどの最先端のトラッカーは、特にリアルタイム無人航空機(UAV)のトラッキングにおいて、制約のあるコンピューティングリソースを持つモバイルプラットフォームのリアルタイム処理要求を満たすのに苦労している。
性能と効率のバランスを改善するために,リアルタイムUAVトラッキングのための変圧器ブロックを選択的に活性化する適応型計算フレームワークであるAVTrackを導入する。
提案した Activation Module (AM) は、関連するコンポーネントを選択的に関連付けることで、ViTアーキテクチャを動的に最適化する。
さらに、UAVトラッキングでしばしば発生する視角の極端な変化による課題に対処するため、相互情報(MI)の最大化を通じてビュー不変表現を学習することにより、ViTsの有効性を高める。
AVTrackには2つの効果的な設計原則が提案されている。
AVTrack-MDと呼ばれる新しいMI最大化に基づく多教師知識蒸留(MD)フレームワークを提案する。
複数の教師、特にAVTrackからのオフザシェルフ追跡モデルの利点を生かし、アウトプットの統合と修正を行い、コンパクトな学生ネットワークの学習プロセスを導く。
具体的には、マルチ教師モデルと学生モデルのソフト化特徴表現のMIを最大化し、特に雑音条件下での生徒モデルの一般化と性能を向上させる。
複数のUAVトラッキングベンチマークの大規模な実験により、AVTrack-MDはAVTrackベースラインに匹敵する性能を達成するだけでなく、モデルの複雑さを低減し、平均トラッキング速度が17倍に向上することが示された。
関連論文リスト
- T2V-Turbo-v2: Enhancing Video Generation Model Post-Training through Data, Reward, and Conditional Guidance Design [79.7289790249621]
提案手法であるT2V-Turbo-v2は、様々な監視信号を統合することにより、大幅な進歩をもたらす。
特定の学習目標に対するデータセットの調整の重要性を強調した。
トレーニングデータセットから動作ガイダンスを抽出し,ODEソルバに組み込むことにより,このアプローチの可能性を示す。
論文 参考訳(メタデータ) (2024-10-08T04:30:06Z) - General Compression Framework for Efficient Transformer Object Tracking [26.42022701164278]
本稿では,効率的なトランスオブジェクト追跡のための汎用モデル圧縮フレームワークCompressTrackerを提案する。
本手法は,教師モデルのトランスフォーマー層を異なる段階に分割する新たな段階分割戦略を特徴とする。
当社のフレームワークであるCompressTrackerは構造的に非依存です。
論文 参考訳(メタデータ) (2024-09-26T06:27:15Z) - Learning Motion Blur Robust Vision Transformers with Dynamic Early Exit for Real-Time UAV Tracking [14.382072224997074]
トレーニング済みのViTバックボーンを使用したシングルストリームアーキテクチャでは、パフォーマンス、効率、堅牢性が改善されている。
リアルタイムなUAV追跡のためにTransformerブロックを動的に終了する適応型フレームワークにすることで、このフレームワークの効率を向上する。
また, 動きのぼかし処理におけるViTsの有効性も改善した。これは, UAV, 追跡対象の速さ, あるいはその両方によって生じるUAVトラッキングの共通問題である。
論文 参考訳(メタデータ) (2024-07-07T14:10:04Z) - Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。
DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。
複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文 参考訳(メタデータ) (2024-03-26T12:31:58Z) - Tiny Multi-Agent DRL for Twins Migration in UAV Metaverses: A Multi-Leader Multi-Follower Stackelberg Game Approach [57.15309977293297]
無人航空機(UAV)とメタバースの相乗効果は、UAVメタバースと呼ばれる新しいパラダイムを生み出している。
本稿では,UAVメタバースにおける効率的なUTマイグレーションのためのプルーニング技術に基づく,機械学習に基づく小さなゲームフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-18T02:14:13Z) - Mutual-Learning Knowledge Distillation for Nighttime UAV Tracking [10.170363860678663]
夜間無人航空機(UAV)の追跡は、必要不可欠なプラグアンドプレイの低照度エンハンサーによって促進されている。
本研究は,夜間UAV追跡のための新たな相互学習知識蒸留フレームワークであるMLKDを提案する。
論文 参考訳(メタデータ) (2023-12-13T04:06:18Z) - Divert More Attention to Vision-Language Object Tracking [87.31882921111048]
大規模な視覚言語アノテートビデオと非効果的な視覚言語対話学習が欠如していることは、トラッキングのためのより効果的な視覚言語表現の設計を動機づけている、と我々は主張する。
本稿では,まず,6つの人気追跡ベンチマークで動画をデコレートする属性アノテーション戦略を提案する。
次に,非対称なアーキテクチャ探索とモダリティミキサー(ModaMixer)を提案する,統一適応型VL表現の学習によるトラッキング向上のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-19T15:22:06Z) - SGDViT: Saliency-Guided Dynamic Vision Transformer for UAV Tracking [12.447854608181833]
本研究は、UAV追跡のための新しいサリエンシ誘導動的視覚変換器(SGDViT)を提案する。
提案手法は,クロスコリレーション操作を洗練させるために,タスク固有の新たなオブジェクト・サリエンシ・マイニング・ネットワークを設計する。
軽量な塩分フィルタリング変換器は、さらに塩分情報を洗練し、外観情報に焦点を当てる。
論文 参考訳(メタデータ) (2023-03-08T05:01:00Z) - AttTrack: Online Deep Attention Transfer for Multi-object Tracking [4.5116674432168615]
マルチオブジェクトトラッキング(MOT)は、監視や自動運転といったインテリジェントなビデオ分析アプリケーションにおいて重要なコンポーネントである。
本稿では,複雑なネットワーク(教師)の高レベルな特徴から,学習時間と推論時間の両方で軽量なネットワーク(学生)に知識を伝達することにより,MOTの高速化を目指す。
提案した AttTrack フレームワークは,1) 教師モデルと学生モデルから中間表現を整合させるクロスモデル特徴学習,2) 推論時に2つのモデルの実行をインターリーブすること,3) 教師モデルから更新された予測を事前知識として取り入れ,学生モデルを支援する。
論文 参考訳(メタデータ) (2022-10-16T22:15:31Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z) - A Unified Object Motion and Affinity Model for Online Multi-Object
Tracking [127.5229859255719]
オブジェクトの動きと親和性モデルを単一のネットワークに統一する新しいMOTフレームワークUMAを提案する。
UMAは、単一物体追跡とメートル法学習をマルチタスク学習により統合された三重項ネットワークに統合する。
我々は,タスク認識機能学習を促進するために,タスク固有のアテンションモジュールを装備する。
論文 参考訳(メタデータ) (2020-03-25T09:36:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。