論文の概要: Progressive Representation Learning for Real-Time UAV Tracking
- arxiv url: http://arxiv.org/abs/2409.16652v1
- Date: Wed, 25 Sep 2024 06:16:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-27 05:23:25.792073
- Title: Progressive Representation Learning for Real-Time UAV Tracking
- Title(参考訳): リアルタイムUAV追跡のためのプログレッシブ表現学習
- Authors: Changhong Fu, Xiang Lei, Haobo Zuo, Liangliang Yao, Guangze Zheng, Jia Pan,
- Abstract要約: 本研究では,UAV追跡のための新しいプログレッシブな表現学習フレームワークであるPRL-Trackを提案する。
粗い表現学習では、外観情報と意味情報に依存する2つの革新的な規制が、外観干渉を緩和し、意味情報をキャプチャするために設計されている。
表現の微妙な学習のために、粗いオブジェクト表現を介在させる新しい階層的モデリングジェネレータを開発した。
- 参考スコア(独自算出の注目度): 20.76053366492599
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual object tracking has significantly promoted autonomous applications for unmanned aerial vehicles (UAVs). However, learning robust object representations for UAV tracking is especially challenging in complex dynamic environments, when confronted with aspect ratio change and occlusion. These challenges severely alter the original information of the object. To handle the above issues, this work proposes a novel progressive representation learning framework for UAV tracking, i.e., PRL-Track. Specifically, PRL-Track is divided into coarse representation learning and fine representation learning. For coarse representation learning, two innovative regulators, which rely on appearance and semantic information, are designed to mitigate appearance interference and capture semantic information. Furthermore, for fine representation learning, a new hierarchical modeling generator is developed to intertwine coarse object representations. Exhaustive experiments demonstrate that the proposed PRL-Track delivers exceptional performance on three authoritative UAV tracking benchmarks. Real-world tests indicate that the proposed PRL-Track realizes superior tracking performance with 42.6 frames per second on the typical UAV platform equipped with an edge smart camera. The code, model, and demo videos are available at \url{https://github.com/vision4robotics/PRL-Track}.
- Abstract(参考訳): 視覚的物体追跡は無人航空機(UAV)の自律的応用を著しく推進している。
しかし,UAV追跡のための頑健なオブジェクト表現の学習は,アスペクト比の変化や閉塞に直面した複雑な動的環境において特に困難である。
これらの課題は、オブジェクトの本来の情報を大きく変えます。
そこで本研究では,UAV追跡のための新しいプログレッシブな表現学習フレームワークであるPRL-Trackを提案する。
具体的には、PRL-Trackを粗い表現学習と細かな表現学習に分割する。
粗い表現学習では、外観情報と意味情報に依存する2つの革新的な規制が、外観干渉を緩和し、意味情報をキャプチャするために設計されている。
さらに、表現の微妙な学習のために、粗いオブジェクト表現を補間するために、新しい階層的モデリング生成器を開発する。
実験により、提案されたPRL-Trackは、3つの信頼できるUAV追跡ベンチマークで例外的な性能を発揮することが示された。
実世界のテストでは、提案されたPRL-Trackは、エッジスマートカメラを備えた典型的なUAVプラットフォームにおいて、毎秒42.6フレームの優れた追跡性能を実現していることを示している。
コード、モデル、デモビデオは \url{https://github.com/vision4robotics/PRL-Track} で公開されている。
関連論文リスト
- VOVTrack: Exploring the Potentiality in Videos for Open-Vocabulary Object Tracking [61.56592503861093]
オープンボキャブラリオブジェクト検出(OVD)とマルチオブジェクトトラッキング(MOT)の複雑さを両立させる。
OVMOT の既存のアプローチは、OVD と MOT の方法論を別個のモジュールとして統合することが多く、主に画像中心のレンズによる問題に焦点を当てている。
VOVTrackは、MOTとビデオ中心トレーニングに関連するオブジェクト状態を統合する新しい手法であり、ビデオオブジェクト追跡の観点からこの問題に対処する。
論文 参考訳(メタデータ) (2024-10-11T05:01:49Z) - Learning Motion Blur Robust Vision Transformers with Dynamic Early Exit for Real-Time UAV Tracking [14.382072224997074]
トレーニング済みのViTバックボーンを使用したシングルストリームアーキテクチャでは、パフォーマンス、効率、堅牢性が改善されている。
リアルタイムなUAV追跡のためにTransformerブロックを動的に終了する適応型フレームワークにすることで、このフレームワークの効率を向上する。
また, 動きのぼかし処理におけるViTsの有効性も改善した。これは, UAV, 追跡対象の速さ, あるいはその両方によって生じるUAVトラッキングの共通問題である。
論文 参考訳(メタデータ) (2024-07-07T14:10:04Z) - Divert More Attention to Vision-Language Object Tracking [87.31882921111048]
大規模な視覚言語アノテートビデオと非効果的な視覚言語対話学習が欠如していることは、トラッキングのためのより効果的な視覚言語表現の設計を動機づけている、と我々は主張する。
本稿では,まず,6つの人気追跡ベンチマークで動画をデコレートする属性アノテーション戦略を提案する。
次に,非対称なアーキテクチャ探索とモダリティミキサー(ModaMixer)を提案する,統一適応型VL表現の学習によるトラッキング向上のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-19T15:22:06Z) - OVTrack: Open-Vocabulary Multiple Object Tracking [64.73379741435255]
OVTrackは任意のオブジェクトクラスを追跡することができるオープン語彙トラッカーである。
大規模な大語彙のTAOベンチマークに新たな最先端技術が設定されている。
論文 参考訳(メタデータ) (2023-04-17T16:20:05Z) - SGDViT: Saliency-Guided Dynamic Vision Transformer for UAV Tracking [12.447854608181833]
本研究は、UAV追跡のための新しいサリエンシ誘導動的視覚変換器(SGDViT)を提案する。
提案手法は,クロスコリレーション操作を洗練させるために,タスク固有の新たなオブジェクト・サリエンシ・マイニング・ネットワークを設計する。
軽量な塩分フィルタリング変換器は、さらに塩分情報を洗練し、外観情報に焦点を当てる。
論文 参考訳(メタデータ) (2023-03-08T05:01:00Z) - AttTrack: Online Deep Attention Transfer for Multi-object Tracking [4.5116674432168615]
マルチオブジェクトトラッキング(MOT)は、監視や自動運転といったインテリジェントなビデオ分析アプリケーションにおいて重要なコンポーネントである。
本稿では,複雑なネットワーク(教師)の高レベルな特徴から,学習時間と推論時間の両方で軽量なネットワーク(学生)に知識を伝達することにより,MOTの高速化を目指す。
提案した AttTrack フレームワークは,1) 教師モデルと学生モデルから中間表現を整合させるクロスモデル特徴学習,2) 推論時に2つのモデルの実行をインターリーブすること,3) 教師モデルから更新された予測を事前知識として取り入れ,学生モデルを支援する。
論文 参考訳(メタデータ) (2022-10-16T22:15:31Z) - PreViTS: Contrastive Pretraining with Video Tracking Supervision [53.73237606312024]
PreViTSは、同じオブジェクトを含むクリップを選択するための教師なしSSLフレームワークである。
PreViTSはフレーム領域を空間的に制約し、モデルから学習し、意味のあるオブジェクトを見つけるように訓練する。
モーメントコントラスト(MoCo)エンコーダを,PreViTSを用いてVGG-SoundとKinetics-400データセットでトレーニングする。
論文 参考訳(メタデータ) (2021-12-01T19:49:57Z) - Crop-Transform-Paste: Self-Supervised Learning for Visual Tracking [137.26381337333552]
本研究では,十分なトレーニングデータを合成できるCrop-Transform-Paste演算を開発した。
オブジェクトの状態はすべての合成データで知られているので、既存のディープトラッカーは人間のアノテーションなしで日常的に訓練することができる。
論文 参考訳(メタデータ) (2021-06-21T07:40:34Z) - TRAT: Tracking by Attention Using Spatio-Temporal Features [14.520067060603209]
空間的特徴と時間的特徴の両方を利用する2ストリームディープニューラルネットワークトラッカーを提案する。
我々のアーキテクチャはATOMトラッカー上で開発され、 (i) 外観特徴を捉える2D-CNNネットワークと (ii) 動作特徴を捉える3D-CNNネットワークの2つのバックボーンを含んでいる。
論文 参考訳(メタデータ) (2020-11-18T20:11:12Z) - Robust Visual Object Tracking with Two-Stream Residual Convolutional
Networks [62.836429958476735]
視覚追跡のための2ストリーム残差畳み込みネットワーク(TS-RCN)を提案する。
私たちのTS-RCNは、既存のディープラーニングベースのビジュアルトラッカーと統合することができます。
トラッキング性能をさらに向上するため、我々はResNeXtを特徴抽出バックボーンとして採用する。
論文 参考訳(メタデータ) (2020-05-13T19:05:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。