論文の概要: Rotation Invariant Transformer for Recognizing Object in UAVs
- arxiv url: http://arxiv.org/abs/2311.02559v1
- Date: Sun, 5 Nov 2023 03:55:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 17:07:17.117758
- Title: Rotation Invariant Transformer for Recognizing Object in UAVs
- Title(参考訳): UAVにおける物体認識のための回転不変変圧器
- Authors: Shuoyi Chen, Mang Ye, Bo Du
- Abstract要約: 本稿では,UAVから興味の対象を認識するための回転不変視変換器(RotTrans)を提案する。
RotTrans は最先端の mAP と Rank1 よりも5.9%、かつ 4.8% 高い最先端の 最先端の 最先端の 最先端の 技術 をはるかに上回っている。
我々のソリューションは、マルチモーダルビデオ推論・アナライジングコンペティションにおいて、UAVベースの人物認識トラックで第一位を獲得しました。
- 参考スコア(独自算出の注目度): 66.1564328237299
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recognizing a target of interest from the UAVs is much more challenging than
the existing object re-identification tasks across multiple city cameras. The
images taken by the UAVs usually suffer from significant size difference when
generating the object bounding boxes and uncertain rotation variations.
Existing methods are usually designed for city cameras, incapable of handing
the rotation issue in UAV scenarios. A straightforward solution is to perform
the image-level rotation augmentation, but it would cause loss of useful
information when inputting the powerful vision transformer as patches. This
motivates us to simulate the rotation operation at the patch feature level,
proposing a novel rotation invariant vision transformer (RotTrans). This
strategy builds on high-level features with the help of the specificity of the
vision transformer structure, which enhances the robustness against large
rotation differences. In addition, we design invariance constraint to establish
the relationship between the original feature and the rotated features,
achieving stronger rotation invariance. Our proposed transformer tested on the
latest UAV datasets greatly outperforms the current state-of-the-arts, which is
5.9\% and 4.8\% higher than the highest mAP and Rank1. Notably, our model also
performs competitively for the person re-identification task on traditional
city cameras. In particular, our solution wins the first place in the UAV-based
person re-recognition track in the Multi-Modal Video Reasoning and Analyzing
Competition held in ICCV 2021. Code is available at
https://github.com/whucsy/RotTrans.
- Abstract(参考訳): UAVからの関心のターゲットを認識することは、既存の複数の都市カメラにおけるオブジェクトの再識別タスクよりもはるかに難しい。
uavで撮影された画像は、通常、オブジェクトバウンディングボックスと不確定な回転変動を生成する際に大きなサイズ差を被る。
既存の方法は通常、都市カメラ用に設計されており、UAVのシナリオで回転問題を処理できない。
簡単な解決策は、画像レベルの回転増強を実行することであるが、強力な視覚変換器をパッチとして入力する際に有用な情報が失われてしまう。
これにより、パッチ特徴レベルでの回転操作をシミュレートし、新しい回転不変視覚変換器(RotTrans)を提案する。
この戦略は、視覚変換器構造の特異性を利用して高レベルな特徴の上に構築され、大きな回転差に対するロバスト性を高める。
さらに,原特徴と回転特徴の関係性を確立するために分散制約を設計し,より強い回転不変性を実現する。
提案するトランスフォーマーは,最新のuavデータセットでテストした結果,最高値の5.9\%,最高値の4.8\%を大きく上回っている。
また,従来の都市カメラの人物識別タスクに対して,本モデルが競争力を発揮することも注目に値する。
特にICCV 2021で開催されているマルチモーダルビデオ推論・アナライジングコンペティションにおいて,UAVベースの人物認識トラックにおいて,本ソリューションが初となる。
コードはhttps://github.com/whucsy/RotTransで入手できる。
関連論文リスト
- Tiny Multi-Agent DRL for Twins Migration in UAV Metaverses: A Multi-Leader Multi-Follower Stackelberg Game Approach [57.15309977293297]
無人航空機(UAV)とメタバースの相乗効果は、UAVメタバースと呼ばれる新しいパラダイムを生み出している。
本稿では,UAVメタバースにおける効率的なUTマイグレーションのためのプルーニング技術に基づく,機械学習に基づく小さなゲームフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-18T02:14:13Z) - Attention Deficit is Ordered! Fooling Deformable Vision Transformers
with Collaborative Adversarial Patches [3.4673556247932225]
変形可能な視覚変換器は、注意モデリングの複雑さを著しく低減する。
最近の研究は、従来の視覚変換器に対する敵攻撃を実証している。
我々は,対象のパッチに注意を向けるようにソースパッチが操作する新たなコラボレーティブアタックを開発する。
論文 参考訳(メタデータ) (2023-11-21T17:55:46Z) - SGDViT: Saliency-Guided Dynamic Vision Transformer for UAV Tracking [12.447854608181833]
本研究は、UAV追跡のための新しいサリエンシ誘導動的視覚変換器(SGDViT)を提案する。
提案手法は,クロスコリレーション操作を洗練させるために,タスク固有の新たなオブジェクト・サリエンシ・マイニング・ネットワークを設計する。
軽量な塩分フィルタリング変換器は、さらに塩分情報を洗練し、外観情報に焦点を当てる。
論文 参考訳(メタデータ) (2023-03-08T05:01:00Z) - Uncertainty Aware Multitask Pyramid Vision Transformer For UAV-Based
Object Re-Identification [38.19907319079833]
UAVベースのオブジェクトReIDのバックボーンとして、畳み込みのない新しいマルチスケールアーキテクチャであるPraamid Vision Transformer(PVT)を用いるマルチタスク学習手法を提案する。
クラス内変動の不確実性モデリングにより、不確実性認識オブジェクトIDとカメラID情報の両方を用いて、提案手法を協調的に最適化することができる。
論文 参考訳(メタデータ) (2022-09-19T00:27:07Z) - Transformers in Remote Sensing: A Survey [76.95730131233424]
我々は、リモートセンシングにおけるトランスフォーマーに基づく進化の体系的レビューを初めて行った。
本調査では,60以上の変圧器を用いたリモートセンシング手法について検討した。
リモートセンシングにおけるトランスフォーマーの様々な課題とオープンな課題を議論し、調査を締めくくった。
論文 参考訳(メタデータ) (2022-09-02T17:57:05Z) - Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文 参考訳(メタデータ) (2022-06-21T17:33:53Z) - ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。
視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。
本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文 参考訳(メタデータ) (2021-10-08T06:32:05Z) - ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias [76.16156833138038]
コンボリューション, ie, ViTAEから内在性IBを探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
各トランス層では、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴は融合されフィードフォワードネットワークに供給される。
論文 参考訳(メタデータ) (2021-06-07T05:31:06Z) - UAV-ReID: A Benchmark on Unmanned Aerial Vehicle Re-identification [21.48667873335246]
近年のディープラーニング開発により、視覚ベースの対UAVシステムは単一のカメラでUAVを検出し、追跡することができる。
単一のカメラのカバー範囲は限られており、カメラ間のUAVにマッチするマルチカメラ構成が必要である。
我々は,この新興地域での機械学習ソリューションの開発を容易にする,UAV-reIDという新しいUAV再識別データセットを提案する。
論文 参考訳(メタデータ) (2021-04-13T14:13:09Z) - ReDet: A Rotation-equivariant Detector for Aerial Object Detection [27.419045245853706]
これらの問題に対処するために、回転等変性検出器(ReDet)を提案する。
回転同変ネットワークを検出器に組み込んで回転同変特徴を抽出する。
本手法は,空中物体検出作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2021-03-13T15:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。