Fugu-MT 論文翻訳(概要): SGDViT: Saliency-Guided Dynamic Vision Transformer for UAV Tracking

論文の概要: SGDViT: Saliency-Guided Dynamic Vision Transformer for UAV Tracking

arxiv url: http://arxiv.org/abs/2303.04378v1
Date: Wed, 8 Mar 2023 05:01:00 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-09 14:58:58.565533
Title: SGDViT: Saliency-Guided Dynamic Vision Transformer for UAV Tracking
Title（参考訳）: SGDViT:UAV追尾用サリエンシ誘導ダイナミックビジョントランス
Authors: Liangliang Yao, Changhong Fu, Sihang Li, Guangze Zheng, and Junjie Ye
Abstract要約: 本研究は、UAV追跡のための新しいサリエンシ誘導動的視覚変換器(SGDViT)を提案する。提案手法は,クロスコリレーション操作を洗練させるために,タスク固有の新たなオブジェクト・サリエンシ・マイニング・ネットワークを設計する。軽量な塩分フィルタリング変換器は、さらに塩分情報を洗練し、外観情報に焦点を当てる。
参考スコア（独自算出の注目度）: 12.447854608181833
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-based object tracking has boosted extensive autonomous applications for unmanned aerial vehicles (UAVs). However, the dynamic changes in flight maneuver and viewpoint encountered in UAV tracking pose significant difficulties, e.g. , aspect ratio change, and scale variation. The conventional cross-correlation operation, while commonly used, has limitations in effectively capturing perceptual similarity and incorporates extraneous background information. To mitigate these limitations, this work presents a novel saliency-guided dynamic vision Transformer (SGDViT) for UAV tracking. The proposed method designs a new task-specific object saliency mining network to refine the cross-correlation operation and effectively discriminate foreground and background information. Additionally, a saliency adaptation embedding operation dynamically generates tokens based on initial saliency, thereby reducing the computational complexity of the Transformer architecture. Finally, a lightweight saliency filtering Transformer further refines saliency information and increases the focus on appearance information. The efficacy and robustness of the proposed approach have been thoroughly assessed through experiments on three widely-used UAV tracking benchmarks and real-world scenarios, with results demonstrating its superiority. The source code and demo videos are available at https://github.com/vision4robotics/SGDViT.
Abstract（参考訳）: 視覚に基づく物体追跡は無人航空機(UAV)の広範な自律的応用を促進した。しかし、UAV追跡における飛行操作のダイナミックな変化と視点は、例えばアスペクト比の変化、スケールの変動など、重大な困難を生じさせる。従来の相互相関操作は一般的に使用されるが、知覚的類似性を効果的に捉え、外部の背景情報を組み込むには限界がある。これらの制限を緩和するために、この研究は、UAV追跡のための新しいサリエンシ誘導動的視覚変換器(SGDViT)を提供する。提案手法は, 相互相関操作を洗練し, フォアグラウンド情報と背景情報を効果的に判別するために, 新しいタスク特化オブジェクト塩分マイニングネットワークを設計する。さらに、サリエンシ適応埋め込み操作は、初期サリエンシに基づいてトークンを動的に生成し、トランスフォーマーアーキテクチャの計算複雑性を低減する。最後に、軽量なサリエンシフィルタリング変換器は、さらにサリエンシ情報を洗練し、外観情報に焦点を当てる。提案手法の有効性とロバスト性は、広範に使用されている3つのUAV追跡ベンチマークと実世界のシナリオの実験を通じて徹底的に評価され、その結果はその優位性を示している。ソースコードとデモビデオはhttps://github.com/vision4robotics/sgdvitで公開されている。

関連論文リスト

DARTer: Dynamic Adaptive Representation Tracker for Nighttime UAV Tracking [1.515687944002438]
夜間UAV追跡は、過度な照明の変動と視点の変化による重大な課題を呈する。 textbfDARTer(textbfDynamic textbfAdaptive textbfRepresentation textbfTracker)は、夜間UAVシナリオ用に設計されたエンドツーエンド追跡フレームワークである。
論文参考訳（メタデータ） (2025-05-01T05:24:14Z)
Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [56.424032454461695]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。 Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。 Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文参考訳（メタデータ） (2025-03-25T15:19:56Z)
A Cross-Scene Benchmark for Open-World Drone Active Tracking [54.235808061746525]
Drone Visual Active Trackingは、視覚的な観察に基づいてモーションシステムを制御することで、対象物を自律的に追跡することを目的としている。 DATと呼ばれるオープンワールドドローンアクティブトラッキングのためのクロスシーンクロスドメインベンチマークを提案する。また、R-VATと呼ばれる強化学習に基づくドローン追跡手法を提案する。
論文参考訳（メタデータ） (2024-12-01T09:37:46Z)
LaVin-DiT: Large Vision Diffusion Transformer [99.98106406059333]
LaVin-DiTは、20以上のコンピュータビジョンタスクを生成フレームワークで扱うために設計された、スケーラブルで統一された基盤モデルである。視覚タスクの生成性能を最適化するための重要なイノベーションを紹介する。このモデルは0.1Bから3.4Bのパラメータに拡張され、様々な視覚タスクにまたがる相当なスケーラビリティと最先端の性能を示す。
論文参考訳（メタデータ） (2024-11-18T12:05:27Z)
SFTrack: A Robust Scale and Motion Adaptive Algorithm for Tracking Small and Fast Moving Objects [2.9803250365852443]
本稿では,無人航空機(UAV)映像における多物体追跡の問題に対処する。交通監視システムや警察によるリアルタイム容疑者追跡など、様々なUAVアプリケーションにおいて重要な役割を果たしている。低信頼度検出から対象物体の追跡を開始する新しい追跡戦略を提案する。
論文参考訳（メタデータ） (2024-10-26T05:09:20Z)
Learning Motion Blur Robust Vision Transformers with Dynamic Early Exit for Real-Time UAV Tracking [14.382072224997074]
トレーニング済みのViTバックボーンを使用したシングルストリームアーキテクチャでは、パフォーマンス、効率、堅牢性が改善されている。リアルタイムなUAV追跡のためにTransformerブロックを動的に終了する適応型フレームワークにすることで、このフレームワークの効率を向上する。また, 動きのぼかし処理におけるViTsの有効性も改善した。これは, UAV, 追跡対象の速さ, あるいはその両方によって生じるUAVトラッキングの共通問題である。
論文参考訳（メタデータ） (2024-07-07T14:10:04Z)
Adaptively Bypassing Vision Transformer Blocks for Efficient Visual Tracking [11.361394596302334]
ABTrackは、効率的な視覚追跡のためにトランスフォーマーブロックを適応的にバイパスする適応型計算フレームワークである。本稿では,トランスブロックをバイパスすべきかどうかを判断するBypass Decision Module (BDM)を提案する。本稿では,各トランスブロックにおけるトークンの潜在表現の次元を小さくする,新しいViTプルーニング手法を提案する。
論文参考訳（メタデータ） (2024-06-12T09:39:18Z)
Rotation Invariant Transformer for Recognizing Object in UAVs [66.1564328237299]
本稿では,UAVから興味の対象を認識するための回転不変視変換器(RotTrans)を提案する。 RotTrans は最先端の mAP と Rank1 よりも5.9%、かつ 4.8% 高い最先端の最先端の最先端の最先端の技術をはるかに上回っている。我々のソリューションは、マルチモーダルビデオ推論・アナライジングコンペティションにおいて、UAVベースの人物認識トラックで第一位を獲得しました。
論文参考訳（メタデータ） (2023-11-05T03:55:08Z)
AViTMP: A Tracking-Specific Transformer for Single-Branch Visual Tracking [17.133735660335343]
本稿では,AViTMP(Adaptive ViT Model Prediction Tracker)を提案する。この方法は、初めて識別モデルで単一ブランチネットワークをブリッジする。 AViTMPは、特に長期追跡とロバスト性の観点から、最先端のパフォーマンスを実現していることを示す。
論文参考訳（メタデータ） (2023-10-30T13:48:04Z)
Leveraging the Power of Data Augmentation for Transformer-based Tracking [64.46371987827312]
トラッキング用にカスタマイズされた2つのデータ拡張手法を提案する。まず、動的探索半径機構と境界サンプルのシミュレーションにより、既存のランダムトリミングを最適化する。第2に,背景干渉などの問題に対するモデルを可能にする,トークンレベルの機能混在強化戦略を提案する。
論文参考訳（メタデータ） (2023-09-15T09:18:54Z)
Dyna-DepthFormer: Multi-frame Transformer for Self-Supervised Depth Estimation in Dynamic Scenes [19.810725397641406]
シーン深度と3次元運動場を協調的に予測する新しいDyna-Depthformerフレームワークを提案する。まず,多視点の相関を一連の自己・横断的層を通じて活用し,深度特徴表現の強化を図る。第2に,動的物体の運動場をセマンティック・プレセプションを使わずに推定するワーピングに基づく運動ネットワークを提案する。
論文参考訳（メタデータ） (2023-01-14T09:43:23Z)
Strong-TransCenter: Improved Multi-Object Tracking based on Transformers with Dense Representations [0.6144680854063939]
トランスフォーマーネットワークは近年、様々なコンピュータビジョンタスクにおける最先端の性能を超えることができる多くの分野の研究の焦点となっている。マルチプルオブジェクトトラッキング(MOT)のタスクでは、トランスフォーマーのパワーを活用することは、いまだに探索されていない。この領域における先駆的な取り組みの中で、トランスフォーマーベースのMOTアーキテクチャで、オブジェクトクエリが密集しているTransCenterは、適切なランタイムを維持しながら、例外的なトラッキング機能を示した。本稿では,トラック・バイ・ディテクト・パラダイムに基づく後処理機構を提案する。
論文参考訳（メタデータ） (2022-10-24T19:47:58Z)
Dynamic Spatial Sparsification for Efficient Vision Transformers and Convolutional Neural Networks [88.77951448313486]
視覚データにおける空間空間空間性を利用したモデルアクセラレーションのための新しい手法を提案する。本稿では,冗長トークンを具現化する動的トークンスペーシフィケーションフレームワークを提案する。提案手法は,CNNや階層型視覚変換器などの階層モデルに拡張する。
論文参考訳（メタデータ） (2022-07-04T17:00:51Z)
An Extendable, Efficient and Effective Transformer-based Object Detector [95.06044204961009]
我々は、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。 ViDTは、最近のSwin Transformerをスタンドアロンのオブジェクト検出器に拡張するために、再構成されたアテンションモジュールを導入した。オブジェクト検出とインスタンスセグメンテーションのための共同タスク学習をサポートするために、ViDT+に拡張する。
論文参考訳（メタデータ） (2022-04-17T09:27:45Z)
ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文参考訳（メタデータ） (2021-10-08T06:32:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。