論文の概要: Local Perception-Aware Transformer for Aerial Tracking
- arxiv url: http://arxiv.org/abs/2208.00662v1
- Date: Mon, 1 Aug 2022 07:54:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-02 13:59:01.438678
- Title: Local Perception-Aware Transformer for Aerial Tracking
- Title(参考訳): 航空追跡のための局部知覚認識認識トランス
- Authors: Changhong Fu, Weiyu Peng, Sihang Li, Junjie Ye and Ziang Cao
- Abstract要約: 提案するトラッカーは,グローバルエンコーダを新しい局所認識エンコーダで置き換える。
後者は、詳細問合せ網を通して、航空ビューの下で正確に局所オブジェクトの詳細をモデル化することができる。
この手法は、316のシークエンスを持つ複数の権威ある航空ベンチマークにおいて、競争精度とロバスト性を達成する。
- 参考スコア(独自算出の注目度): 13.354630453781152
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based visual object tracking has been utilized extensively.
However, the Transformer structure is lack of enough inductive bias. In
addition, only focusing on encoding the global feature does harm to modeling
local details, which restricts the capability of tracking in aerial robots.
Specifically, with local-modeling to global-search mechanism, the proposed
tracker replaces the global encoder by a novel local-recognition encoder. In
the employed encoder, a local-recognition attention and a local element
correction network are carefully designed for reducing the global redundant
information interference and increasing local inductive bias. Meanwhile, the
latter can model local object details precisely under aerial view through
detail-inquiry net. The proposed method achieves competitive accuracy and
robustness in several authoritative aerial benchmarks with 316 sequences in
total. The proposed tracker's practicability and efficiency have been validated
by the real-world tests.
- Abstract(参考訳): トランスフォーマーベースのビジュアルオブジェクトトラッキングが広く利用されている。
しかし、トランスフォーマー構造には十分なインダクティブバイアスが欠けている。
さらに、グローバル機能のエンコーディングにのみ注目することは、航空ロボットの追跡能力を制限するローカルディテールのモデリングに悪影響を及ぼす。
具体的には、局所モデリングからグローバル検索機構により、提案されたトラッカーはグローバルエンコーダを新しいローカル認識エンコーダに置き換える。
使用済みエンコーダにおいて、グローバル冗長情報干渉を低減し、局所インダクティブバイアスを増大させるために、局所認識注意および局所要素補正ネットワークを慎重に設計する。
一方、後者は、詳細問合せ網を通して、航空ビューの下で正確に局所的な物体の詳細をモデル化することができる。
提案手法は, 合計316列の高信頼性航空ベンチマークにおいて, 競争精度とロバスト性を実現する。
提案したトラッカーの実用性と効率は実世界の試験によって検証されている。
関連論文リスト
- Generalizable Deepfake Detection via Effective Local-Global Feature Extraction [5.221473306027505]
GANと拡散モデルにより、ますます現実的な偽画像が生成される。
ディープフェイク検出は、今日の世界で深刻な問題となっている。
本稿では,局所的特徴とグローバル的特徴を効果的に組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-25T15:53:57Z) - Distilled Transformers with Locally Enhanced Global Representations for Face Forgery Detection [48.263655122968906]
顔画像の正当性を検出するために,顔偽造検出(FFD)を行う。
本研究では, ローカルおよびグローバルな偽物の両方を抽出する蒸留トランス (DTN) ネットワークを提案する。
論文 参考訳(メタデータ) (2024-12-28T14:00:27Z) - GeneralAD: Anomaly Detection Across Domains by Attending to Distorted Features [68.14842693208465]
GeneralADは、意味的、ほぼ分布的、産業的設定で動作するように設計された異常検出フレームワークである。
本稿では,ノイズ付加やシャッフルなどの簡単な操作を施した自己教師付き異常生成モジュールを提案する。
提案手法を10のデータセットに対して広範囲に評価し,6つの実験結果と,残りの6つの実験結果を得た。
論文 参考訳(メタデータ) (2024-07-17T09:27:41Z) - Can Transformer Attention Spread Give Insights Into Uncertainty of
Detected and Tracked Objects? [9.287964414592826]
トランスフォーマーは、最近、自律運転の文脈で物体の検出と追跡に利用されてきた。
これらのモデルのユニークな特徴の1つは、各前方通過で注意重みが計算されることである。
これらの注意重みがデコーダ層やトラックの寿命を通じてどのように変化するかを検討する。
論文 参考訳(メタデータ) (2022-10-26T00:05:16Z) - Focused Decoding Enables 3D Anatomical Detection by Transformers [64.36530874341666]
集束デコーダと呼ばれる3次元解剖学的構造検出のための新しい検出変換器を提案する。
Focused Decoderは、解剖学的領域のアトラスからの情報を活用して、クエリアンカーを同時にデプロイし、クロスアテンションの視野を制限する。
提案手法を利用可能な2つのCTデータセットに対して評価し、フォーカスドデコーダが強力な検出結果を提供するだけでなく、大量の注釈付きデータの必要性を軽減し、注意重みによる結果の例外的で直感的な説明性を示すことを示した。
論文 参考訳(メタデータ) (2022-07-21T22:17:21Z) - SelfReformer: Self-Refined Network with Transformer for Salient Object
Detection [46.72916268774309]
既存の手法は、詳細で完全な予測を生成するのに依然として苦労している。
我々はTransformerベースのネットワークを開発し、グローバルコンテキスト情報を明示的に学習するブランチのための教師付きタスクをフレーム化した。
さらに,グローバルなコンテキストを融合し,予測における局所的な詳細を自動的に特定・洗練する2段階のContext Refinement Moduleを開発した。
論文 参考訳(メタデータ) (2022-05-23T13:10:10Z) - Integral Migrating Pre-trained Transformer Encoder-decoders for Visual
Object Detection [78.2325219839805]
imTEDは、数発のオブジェクト検出の最先端を最大7.6%改善する。
MS COCOデータセットの実験は、imTEDが一貫してそのデータセットを2.8%上回っていることを示している。
論文 参考訳(メタデータ) (2022-05-19T15:11:20Z) - LCTR: On Awakening the Local Continuity of Transformer for Weakly
Supervised Object Localization [38.376238216214524]
弱教師付きオブジェクトローカライゼーション(WSOL)は、画像レベルのラベルだけでオブジェクトローカライザを学習することを目的としている。
本稿では,グローバルな特徴の局所認識能力を高めることを目的とした,LCTRと呼ばれるトランスフォーマー上に構築された新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-10T01:48:40Z) - Unifying Global-Local Representations in Salient Object Detection with Transformer [55.23033277636774]
我々は、視覚変換器という新しいアテンションベースのエンコーダを有能な物体検出に導入する。
非常に浅い層でのグローバルビューでは、トランスフォーマーエンコーダはより局所的な表現を保持する。
提案手法は,5つのベンチマークにおいて,他のFCN法およびトランスフォーマー法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-05T17:51:32Z) - Unsupervised Metric Relocalization Using Transform Consistency Loss [66.19479868638925]
メートル法再ローカライズを行うためのトレーニングネットワークは、従来、正確な画像対応が必要である。
地図内のクエリ画像のローカライズは、登録に使用される参照画像に関係なく、同じ絶対的なポーズを与えるべきである。
提案手法は, 限られた地下構造情報が得られる場合に, 他の教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-11-01T19:24:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。