論文の概要: HiFT: Hierarchical Feature Transformer for Aerial Tracking
- arxiv url: http://arxiv.org/abs/2108.00202v1
- Date: Sat, 31 Jul 2021 10:04:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-03 15:07:40.582302
- Title: HiFT: Hierarchical Feature Transformer for Aerial Tracking
- Title(参考訳): HiFT:空中追跡のための階層型特徴変換器
- Authors: Ziang Cao, Changhong Fu, Junjie Ye, Bowen Li, and Yiming Li
- Abstract要約: 航空追跡のための効率的かつ効果的な階層型特徴変換器 (HiFT) を提案する。
HiFTは空間的(浅層)と意味論的(深層)の相互融合を実現するために多層畳み込み層を用いる
4つの航空ベンチマークの総合的な評価は、HiFTの有効性を証明している。
- 参考スコア(独自算出の注目度): 16.78336740951222
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing Siamese-based tracking methods execute the classification and
regression of the target object based on the similarity maps. However, they
either employ a single map from the last convolutional layer which degrades the
localization accuracy in complex scenarios or separately use multiple maps for
decision making, introducing intractable computations for aerial mobile
platforms. Thus, in this work, we propose an efficient and effective
hierarchical feature transformer (HiFT) for aerial tracking. Hierarchical
similarity maps generated by multi-level convolutional layers are fed into the
feature transformer to achieve the interactive fusion of spatial (shallow
layers) and semantics cues (deep layers). Consequently, not only the global
contextual information can be raised, facilitating the target search, but also
our end-to-end architecture with the transformer can efficiently learn the
interdependencies among multi-level features, thereby discovering a
tracking-tailored feature space with strong discriminability. Comprehensive
evaluations on four aerial benchmarks have proven the effectiveness of HiFT.
Real-world tests on the aerial platform have strongly validated its
practicability with a real-time speed. Our code is available at
https://github.com/vision4robotics/HiFT.
- Abstract(参考訳): 既存のシャム系追跡法は、類似度マップに基づいて対象オブジェクトの分類と回帰を実行する。
しかし、それらは最終畳み込み層からの1つのマップを使用し、複雑なシナリオにおける局所化の精度を低下させるか、複数のマップを分離して意思決定し、空中移動プラットフォームに難解な計算を導入する。
そこで本研究では,航空追跡のための効率的かつ効果的な階層型特徴変換器 (HiFT) を提案する。
多層畳み込み層によって生成された階層的類似性マップを特徴変換器に入力し、空間的(浅層)と意味論的(深層)の相互融合を実現する。
その結果、グローバルな文脈情報を収集し、ターゲット探索を容易にするだけでなく、トランスフォーマーを用いたエンドツーエンドアーキテクチャにより、マルチレベルの特徴間の相互依存性を効率よく学習し、強力な識別性を持つ追跡調整された特徴空間を発見できる。
4つの航空ベンチマークの総合的な評価は、HiFTの有効性を証明している。
航空プラットフォームにおける実世界のテストは、リアルタイムの速度で実用性を強く検証した。
私たちのコードはhttps://github.com/vision4robotics/HiFT.comから入手可能です。
関連論文リスト
- ETO:Efficient Transformer-based Local Feature Matching by Organizing Multiple Homography Hypotheses [35.31588965060201]
局所的な特徴マッチングのための効率的なトランスフォーマーベースネットワークアーキテクチャを提案する。
YFCC100Mデータセットでは、我々のマッチング精度は最先端のトランスフォーマーベースのアーキテクチャであるLoFTRと競合する。
論文 参考訳(メタデータ) (2024-10-30T06:39:27Z) - EgoVM: Achieving Precise Ego-Localization using Lightweight Vectorized
Maps [9.450650025266379]
本稿では,従来の最先端手法に匹敵するローカライズ精度を実現するエンド・ツー・エンドのローカライズネットワークであるEgoVMを提案する。
我々は、学習可能なセマンティック埋め込みを用いて、マップ要素のセマンティックタイプを符号化し、セマンティックセマンティックセグメンテーションでそれらを監督する。
本研究では,頑健なヒストグラムに基づくポーズ解法を用いて,候補ポーズを徹底的に探索することで最適なポーズを推定する。
論文 参考訳(メタデータ) (2023-07-18T06:07:25Z) - Dynamic Perceiver for Efficient Visual Recognition [87.08210214417309]
特徴抽出手順と早期分類タスクを分離する動的知覚器(Dyn-Perceiver)を提案する。
特徴ブランチは画像の特徴を抽出し、分類ブランチは分類タスクに割り当てられた遅延コードを処理する。
早期出口は分類枝に限られており、低レベルの特徴において線形分離性は不要である。
論文 参考訳(メタデータ) (2023-06-20T03:00:22Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Unifying Global-Local Representations in Salient Object Detection with Transformer [55.23033277636774]
我々は、視覚変換器という新しいアテンションベースのエンコーダを有能な物体検出に導入する。
非常に浅い層でのグローバルビューでは、トランスフォーマーエンコーダはより局所的な表現を保持する。
提案手法は,5つのベンチマークにおいて,他のFCN法およびトランスフォーマー法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-05T17:51:32Z) - TransMOT: Spatial-Temporal Graph Transformer for Multiple Object
Tracking [74.82415271960315]
映像内の物体間の空間的・時間的相互作用を効率的にモデル化するソリューションであるTransMOTを提案する。
TransMOTは従来のTransformerよりも計算効率が高いだけでなく、トラッキング精度も向上している。
提案手法は、MOT15、MOT16、MOT17、MOT20を含む複数のベンチマークデータセット上で評価される。
論文 参考訳(メタデータ) (2021-04-01T01:49:05Z) - Multiple Convolutional Features in Siamese Networks for Object Tracking [13.850110645060116]
Multiple Features-Siamese Tracker (MFST) は、ロバストな追跡のために複数の階層的な特徴マップを利用する新しい追跡アルゴリズムである。
MFSTは、オブジェクト追跡ベンチマークにおいて標準のサイメムトラッカーよりも高いトラッキング精度を達成する。
論文 参考訳(メタデータ) (2021-03-01T08:02:27Z) - Learning to Generate Content-Aware Dynamic Detectors [62.74209921174237]
サンプル適応型モデルアーキテクチャを自動的に生成する効率的な検出器の設計を新たに導入する。
動的ルーティングの学習を導くために、オブジェクト検出に適したコースツーファインの成層図を紹介します。
MS-COCOデータセットの実験により、CADDetはバニラルーティングに比べて10%少ないFLOPで1.8以上のmAPを達成することが示された。
論文 参考訳(メタデータ) (2020-12-08T08:05:20Z) - Cross-layer Feature Pyramid Network for Salient Object Detection [102.20031050972429]
本稿では,有能な物体検出における進行的融合を改善するために,新しいクロス層特徴ピラミッドネットワークを提案する。
レイヤごとの分散機能は、他のすべてのレイヤからセマンティクスと健全な詳細の両方を同時に所有し、重要な情報の損失を減らします。
論文 参考訳(メタデータ) (2020-02-25T14:06:27Z) - PLLay: Efficient Topological Layer based on Persistence Landscapes [24.222495922671442]
PLLayは、永続化ランドスケープに基づいた一般的なディープラーニングモデルのための新しいトポロジ的レイヤである。
任意の濾過を伴う一般的な永続ホモロジーに対して、層入力に関する微分可能性を示す。
論文 参考訳(メタデータ) (2020-02-07T13:34:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。