論文の概要: SGDViT: Saliency-Guided Dynamic Vision Transformer for UAV Tracking
- arxiv url: http://arxiv.org/abs/2303.04378v1
- Date: Wed, 8 Mar 2023 05:01:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-09 14:58:58.565533
- Title: SGDViT: Saliency-Guided Dynamic Vision Transformer for UAV Tracking
- Title(参考訳): SGDViT:UAV追尾用サリエンシ誘導ダイナミックビジョントランス
- Authors: Liangliang Yao, Changhong Fu, Sihang Li, Guangze Zheng, and Junjie Ye
- Abstract要約: 本研究は、UAV追跡のための新しいサリエンシ誘導動的視覚変換器(SGDViT)を提案する。
提案手法は,クロスコリレーション操作を洗練させるために,タスク固有の新たなオブジェクト・サリエンシ・マイニング・ネットワークを設計する。
軽量な塩分フィルタリング変換器は、さらに塩分情報を洗練し、外観情報に焦点を当てる。
- 参考スコア(独自算出の注目度): 12.447854608181833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-based object tracking has boosted extensive autonomous applications
for unmanned aerial vehicles (UAVs). However, the dynamic changes in flight
maneuver and viewpoint encountered in UAV tracking pose significant
difficulties, e.g. , aspect ratio change, and scale variation. The conventional
cross-correlation operation, while commonly used, has limitations in
effectively capturing perceptual similarity and incorporates extraneous
background information. To mitigate these limitations, this work presents a
novel saliency-guided dynamic vision Transformer (SGDViT) for UAV tracking. The
proposed method designs a new task-specific object saliency mining network to
refine the cross-correlation operation and effectively discriminate foreground
and background information. Additionally, a saliency adaptation embedding
operation dynamically generates tokens based on initial saliency, thereby
reducing the computational complexity of the Transformer architecture. Finally,
a lightweight saliency filtering Transformer further refines saliency
information and increases the focus on appearance information. The efficacy and
robustness of the proposed approach have been thoroughly assessed through
experiments on three widely-used UAV tracking benchmarks and real-world
scenarios, with results demonstrating its superiority. The source code and demo
videos are available at https://github.com/vision4robotics/SGDViT.
- Abstract(参考訳): 視覚に基づく物体追跡は無人航空機(UAV)の広範な自律的応用を促進した。
しかし、UAV追跡における飛行操作のダイナミックな変化と視点は、例えばアスペクト比の変化、スケールの変動など、重大な困難を生じさせる。
従来の相互相関操作は一般的に使用されるが、知覚的類似性を効果的に捉え、外部の背景情報を組み込むには限界がある。
これらの制限を緩和するために、この研究は、UAV追跡のための新しいサリエンシ誘導動的視覚変換器(SGDViT)を提供する。
提案手法は, 相互相関操作を洗練し, フォアグラウンド情報と背景情報を効果的に判別するために, 新しいタスク特化オブジェクト塩分マイニングネットワークを設計する。
さらに、サリエンシ適応埋め込み操作は、初期サリエンシに基づいてトークンを動的に生成し、トランスフォーマーアーキテクチャの計算複雑性を低減する。
最後に、軽量なサリエンシフィルタリング変換器は、さらにサリエンシ情報を洗練し、外観情報に焦点を当てる。
提案手法の有効性とロバスト性は、広範に使用されている3つのUAV追跡ベンチマークと実世界のシナリオの実験を通じて徹底的に評価され、その結果はその優位性を示している。
ソースコードとデモビデオはhttps://github.com/vision4robotics/sgdvitで公開されている。
関連論文リスト
- SeaDSC: A video-based unsupervised method for dynamic scene change
detection in unmanned surface vehicles [3.2716252389196288]
本稿では,無人表面車両(USV)の動的シーン変化を検出するためのアプローチについて概説する。
本研究の目的は,海中映像データのダイナミックなシーン,特に高い類似性を示すシーンに顕著な変化を見出すことである。
本研究では,動的シーン変化検出システムにおいて,教師なし学習手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T07:34:01Z) - Rotation Invariant Transformer for Recognizing Object in UAVs [66.1564328237299]
本稿では,UAVから興味の対象を認識するための回転不変視変換器(RotTrans)を提案する。
RotTrans は最先端の mAP と Rank1 よりも5.9%、かつ 4.8% 高い最先端の 最先端の 最先端の 最先端の 技術 をはるかに上回っている。
我々のソリューションは、マルチモーダルビデオ推論・アナライジングコンペティションにおいて、UAVベースの人物認識トラックで第一位を獲得しました。
論文 参考訳(メタデータ) (2023-11-05T03:55:08Z) - Exploiting Image-Related Inductive Biases in Single-Branch Visual
Tracking [18.381858982041226]
本稿では,単一ブランチネットワークと識別モデルとのギャップを埋めるために,適応型ViTモデル予測トラッカ(AViTMP)を提案する。
AViTMPは最先端のパフォーマンス、特に長期追跡と堅牢性を実現している。
論文 参考訳(メタデータ) (2023-10-30T13:48:04Z) - Leveraging the Power of Data Augmentation for Transformer-based Tracking [64.46371987827312]
トラッキング用にカスタマイズされた2つのデータ拡張手法を提案する。
まず、動的探索半径機構と境界サンプルのシミュレーションにより、既存のランダムトリミングを最適化する。
第2に,背景干渉などの問題に対するモデルを可能にする,トークンレベルの機能混在強化戦略を提案する。
論文 参考訳(メタデータ) (2023-09-15T09:18:54Z) - Dyna-DepthFormer: Multi-frame Transformer for Self-Supervised Depth
Estimation in Dynamic Scenes [19.810725397641406]
シーン深度と3次元運動場を協調的に予測する新しいDyna-Depthformerフレームワークを提案する。
まず,多視点の相関を一連の自己・横断的層を通じて活用し,深度特徴表現の強化を図る。
第2に,動的物体の運動場をセマンティック・プレセプションを使わずに推定するワーピングに基づく運動ネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-14T09:43:23Z) - Dynamic Spatial Sparsification for Efficient Vision Transformers and
Convolutional Neural Networks [88.77951448313486]
視覚データにおける空間空間空間性を利用したモデルアクセラレーションのための新しい手法を提案する。
本稿では,冗長トークンを具現化する動的トークンスペーシフィケーションフレームワークを提案する。
提案手法は,CNNや階層型視覚変換器などの階層モデルに拡張する。
論文 参考訳(メタデータ) (2022-07-04T17:00:51Z) - An Extendable, Efficient and Effective Transformer-based Object Detector [95.06044204961009]
我々は、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
ViDTは、最近のSwin Transformerをスタンドアロンのオブジェクト検出器に拡張するために、再構成されたアテンションモジュールを導入した。
オブジェクト検出とインスタンスセグメンテーションのための共同タスク学習をサポートするために、ViDT+に拡張する。
論文 参考訳(メタデータ) (2022-04-17T09:27:45Z) - ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。
視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。
本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文 参考訳(メタデータ) (2021-10-08T06:32:05Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。