論文の概要: SGDViT: Saliency-Guided Dynamic Vision Transformer for UAV Tracking
- arxiv url: http://arxiv.org/abs/2303.04378v1
- Date: Wed, 8 Mar 2023 05:01:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-09 14:58:58.565533
- Title: SGDViT: Saliency-Guided Dynamic Vision Transformer for UAV Tracking
- Title(参考訳): SGDViT:UAV追尾用サリエンシ誘導ダイナミックビジョントランス
- Authors: Liangliang Yao, Changhong Fu, Sihang Li, Guangze Zheng, and Junjie Ye
- Abstract要約: 本研究は、UAV追跡のための新しいサリエンシ誘導動的視覚変換器(SGDViT)を提案する。
提案手法は,クロスコリレーション操作を洗練させるために,タスク固有の新たなオブジェクト・サリエンシ・マイニング・ネットワークを設計する。
軽量な塩分フィルタリング変換器は、さらに塩分情報を洗練し、外観情報に焦点を当てる。
- 参考スコア(独自算出の注目度): 12.447854608181833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-based object tracking has boosted extensive autonomous applications
for unmanned aerial vehicles (UAVs). However, the dynamic changes in flight
maneuver and viewpoint encountered in UAV tracking pose significant
difficulties, e.g. , aspect ratio change, and scale variation. The conventional
cross-correlation operation, while commonly used, has limitations in
effectively capturing perceptual similarity and incorporates extraneous
background information. To mitigate these limitations, this work presents a
novel saliency-guided dynamic vision Transformer (SGDViT) for UAV tracking. The
proposed method designs a new task-specific object saliency mining network to
refine the cross-correlation operation and effectively discriminate foreground
and background information. Additionally, a saliency adaptation embedding
operation dynamically generates tokens based on initial saliency, thereby
reducing the computational complexity of the Transformer architecture. Finally,
a lightweight saliency filtering Transformer further refines saliency
information and increases the focus on appearance information. The efficacy and
robustness of the proposed approach have been thoroughly assessed through
experiments on three widely-used UAV tracking benchmarks and real-world
scenarios, with results demonstrating its superiority. The source code and demo
videos are available at https://github.com/vision4robotics/SGDViT.
- Abstract(参考訳): 視覚に基づく物体追跡は無人航空機(UAV)の広範な自律的応用を促進した。
しかし、UAV追跡における飛行操作のダイナミックな変化と視点は、例えばアスペクト比の変化、スケールの変動など、重大な困難を生じさせる。
従来の相互相関操作は一般的に使用されるが、知覚的類似性を効果的に捉え、外部の背景情報を組み込むには限界がある。
これらの制限を緩和するために、この研究は、UAV追跡のための新しいサリエンシ誘導動的視覚変換器(SGDViT)を提供する。
提案手法は, 相互相関操作を洗練し, フォアグラウンド情報と背景情報を効果的に判別するために, 新しいタスク特化オブジェクト塩分マイニングネットワークを設計する。
さらに、サリエンシ適応埋め込み操作は、初期サリエンシに基づいてトークンを動的に生成し、トランスフォーマーアーキテクチャの計算複雑性を低減する。
最後に、軽量なサリエンシフィルタリング変換器は、さらにサリエンシ情報を洗練し、外観情報に焦点を当てる。
提案手法の有効性とロバスト性は、広範に使用されている3つのUAV追跡ベンチマークと実世界のシナリオの実験を通じて徹底的に評価され、その結果はその優位性を示している。
ソースコードとデモビデオはhttps://github.com/vision4robotics/sgdvitで公開されている。
関連論文リスト
- LaVin-DiT: Large Vision Diffusion Transformer [99.98106406059333]
LaVin-DiTは、20以上のコンピュータビジョンタスクを生成フレームワークで扱うために設計された、スケーラブルで統一された基盤モデルである。
視覚タスクの生成性能を最適化するための重要なイノベーションを紹介する。
このモデルは0.1Bから3.4Bのパラメータに拡張され、様々な視覚タスクにまたがる相当なスケーラビリティと最先端の性能を示す。
論文 参考訳(メタデータ) (2024-11-18T12:05:27Z) - SFTrack: A Robust Scale and Motion Adaptive Algorithm for Tracking Small and Fast Moving Objects [2.9803250365852443]
本稿では,無人航空機(UAV)映像における多物体追跡の問題に対処する。
交通監視システムや警察によるリアルタイム容疑者追跡など、様々なUAVアプリケーションにおいて重要な役割を果たしている。
低信頼度検出から対象物体の追跡を開始する新しい追跡戦略を提案する。
論文 参考訳(メタデータ) (2024-10-26T05:09:20Z) - Learning Motion Blur Robust Vision Transformers with Dynamic Early Exit for Real-Time UAV Tracking [14.382072224997074]
トレーニング済みのViTバックボーンを使用したシングルストリームアーキテクチャでは、パフォーマンス、効率、堅牢性が改善されている。
リアルタイムなUAV追跡のためにTransformerブロックを動的に終了する適応型フレームワークにすることで、このフレームワークの効率を向上する。
また, 動きのぼかし処理におけるViTsの有効性も改善した。これは, UAV, 追跡対象の速さ, あるいはその両方によって生じるUAVトラッキングの共通問題である。
論文 参考訳(メタデータ) (2024-07-07T14:10:04Z) - Adaptively Bypassing Vision Transformer Blocks for Efficient Visual Tracking [11.361394596302334]
ABTrackは、効率的な視覚追跡のためにトランスフォーマーブロックを適応的にバイパスする適応型計算フレームワークである。
本稿では,トランスブロックをバイパスすべきかどうかを判断するBypass Decision Module (BDM)を提案する。
本稿では,各トランスブロックにおけるトークンの潜在表現の次元を小さくする,新しいViTプルーニング手法を提案する。
論文 参考訳(メタデータ) (2024-06-12T09:39:18Z) - Rotation Invariant Transformer for Recognizing Object in UAVs [66.1564328237299]
本稿では,UAVから興味の対象を認識するための回転不変視変換器(RotTrans)を提案する。
RotTrans は最先端の mAP と Rank1 よりも5.9%、かつ 4.8% 高い最先端の 最先端の 最先端の 最先端の 技術 をはるかに上回っている。
我々のソリューションは、マルチモーダルビデオ推論・アナライジングコンペティションにおいて、UAVベースの人物認識トラックで第一位を獲得しました。
論文 参考訳(メタデータ) (2023-11-05T03:55:08Z) - AViTMP: A Tracking-Specific Transformer for Single-Branch Visual Tracking [17.133735660335343]
本稿では,AViTMP(Adaptive ViT Model Prediction Tracker)を提案する。
この方法は、初めて識別モデルで単一ブランチネットワークをブリッジする。
AViTMPは、特に長期追跡とロバスト性の観点から、最先端のパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2023-10-30T13:48:04Z) - Leveraging the Power of Data Augmentation for Transformer-based Tracking [64.46371987827312]
トラッキング用にカスタマイズされた2つのデータ拡張手法を提案する。
まず、動的探索半径機構と境界サンプルのシミュレーションにより、既存のランダムトリミングを最適化する。
第2に,背景干渉などの問題に対するモデルを可能にする,トークンレベルの機能混在強化戦略を提案する。
論文 参考訳(メタデータ) (2023-09-15T09:18:54Z) - Dyna-DepthFormer: Multi-frame Transformer for Self-Supervised Depth
Estimation in Dynamic Scenes [19.810725397641406]
シーン深度と3次元運動場を協調的に予測する新しいDyna-Depthformerフレームワークを提案する。
まず,多視点の相関を一連の自己・横断的層を通じて活用し,深度特徴表現の強化を図る。
第2に,動的物体の運動場をセマンティック・プレセプションを使わずに推定するワーピングに基づく運動ネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-14T09:43:23Z) - Dynamic Spatial Sparsification for Efficient Vision Transformers and
Convolutional Neural Networks [88.77951448313486]
視覚データにおける空間空間空間性を利用したモデルアクセラレーションのための新しい手法を提案する。
本稿では,冗長トークンを具現化する動的トークンスペーシフィケーションフレームワークを提案する。
提案手法は,CNNや階層型視覚変換器などの階層モデルに拡張する。
論文 参考訳(メタデータ) (2022-07-04T17:00:51Z) - An Extendable, Efficient and Effective Transformer-based Object Detector [95.06044204961009]
我々は、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
ViDTは、最近のSwin Transformerをスタンドアロンのオブジェクト検出器に拡張するために、再構成されたアテンションモジュールを導入した。
オブジェクト検出とインスタンスセグメンテーションのための共同タスク学習をサポートするために、ViDT+に拡張する。
論文 参考訳(メタデータ) (2022-04-17T09:27:45Z) - ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。
視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。
本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文 参考訳(メタデータ) (2021-10-08T06:32:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。