論文の概要: Spatial Transform Decoupling for Oriented Object Detection
- arxiv url: http://arxiv.org/abs/2308.10561v2
- Date: Thu, 22 Feb 2024 07:18:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 18:52:28.314405
- Title: Spatial Transform Decoupling for Oriented Object Detection
- Title(参考訳): 指向性物体検出のための空間変換デカップリング
- Authors: Hongtian Yu, Yunjie Tian, Qixiang Ye, Yunfan Liu
- Abstract要約: ビジョントランスフォーマー (ViT) はコンピュータビジョンタスクにおいて顕著な成功を収めた。
本稿では,空間変換デカップリング(Spatial Transform Decoupling,STD)と呼ばれる新しい手法を提案する。
- 参考スコア(独自算出の注目度): 43.44237345360947
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViTs) have achieved remarkable success in computer
vision tasks. However, their potential in rotation-sensitive scenarios has not
been fully explored, and this limitation may be inherently attributed to the
lack of spatial invariance in the data-forwarding process. In this study, we
present a novel approach, termed Spatial Transform Decoupling (STD), providing
a simple-yet-effective solution for oriented object detection with ViTs. Built
upon stacked ViT blocks, STD utilizes separate network branches to predict the
position, size, and angle of bounding boxes, effectively harnessing the spatial
transform potential of ViTs in a divide-and-conquer fashion. Moreover, by
aggregating cascaded activation masks (CAMs) computed upon the regressed
parameters, STD gradually enhances features within regions of interest (RoIs),
which complements the self-attention mechanism. Without bells and whistles, STD
achieves state-of-the-art performance on the benchmark datasets including
DOTA-v1.0 (82.24% mAP) and HRSC2016 (98.55% mAP), which demonstrates the
effectiveness of the proposed method. Source code is available at
https://github.com/yuhongtian17/Spatial-Transform-Decoupling.
- Abstract(参考訳): ビジョントランスフォーマー (vits) はコンピュータビジョンタスクで顕著な成功を収めた。
しかし、回転に敏感なシナリオにおけるそれらのポテンシャルは十分に解明されておらず、この制限は本質的にはデータフォワード過程における空間的不変性の欠如によるものである。
本研究では,vitsを用いた指向性物体検出のための簡易解法として,std(spatial transform decoupling)という新しい手法を提案する。
スタック化されたViTブロック上に構築されたSTDは、別々のネットワークブランチを使用して、境界ボックスの位置、サイズ、角度を予測する。
さらに、回帰パラメータに基づいて計算されたカスケード活性化マスク(CAM)を集約することにより、STDは、自己注意機構を補完する関心領域(RoI)の機能を徐々に強化する。
ベルとホイッスルがなければ、STDはDOTA-v1.0 (82.24% mAP) やHRSC2016 (98.55% mAP) などのベンチマークデータセット上で最先端のパフォーマンスを達成し、提案手法の有効性を示す。
ソースコードはhttps://github.com/yuhongtian17/spatial-transform-decouplingで入手できる。
関連論文リスト
- TraIL-Det: Transformation-Invariant Local Feature Networks for 3D LiDAR Object Detection with Unsupervised Pre-Training [21.56675189346088]
本稿では変換不変ローカル(TraIL)機能と関連するTraIL-Detアーキテクチャを紹介する。
TraILの特徴は、厳密な変換不変性を示し、点密度の変動に効果的に適応する。
彼らはLiDARの固有の等方性放射を利用して局所的な表現を強化する。
提案手法は,KITTI上のmAPを用いて,現代自己監督型3次元物体検出手法より優れている。
論文 参考訳(メタデータ) (2024-08-25T17:59:17Z) - VST++: Efficient and Stronger Visual Saliency Transformer [74.26078624363274]
我々は,グローバルな長距離依存関係を探索する,効率的で強力なVST++モデルを開発した。
我々は、RGB、RGB-D、RGB-T SODベンチマークデータセット上で、トランスフォーマーベースのバックボーンにまたがってモデルを評価した。
論文 参考訳(メタデータ) (2023-10-18T05:44:49Z) - Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer [54.32283739486781]
適応学習パラダイムの下で,textbfForgery-aware textbfAdaptive textbfVision textbfTransformer(FA-ViT)を提案する。
FA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセット上で93.83%と78.32%のAUCスコアを達成する。
論文 参考訳(メタデータ) (2023-09-20T06:51:11Z) - Semantic-Constraint Matching Transformer for Weakly Supervised Object
Localization [31.039698757869974]
弱教師付きオブジェクトローカライゼーション(WSOL)は、イメージレベルの監督のみでオブジェクトをローカライズすることを学ぶ。
従来のCNNベースのメソッドは、エンティティのスコープ全体ではなく、オブジェクトの識別部分に集中して、部分的なアクティベーションの問題に悩まされていた。
本稿では,変圧器を用いたセマンティック・制約マッチングネットワーク(SCMN)を提案する。
論文 参考訳(メタデータ) (2023-09-04T03:20:31Z) - Masked Momentum Contrastive Learning for Zero-shot Semantic
Understanding [39.424931953675994]
自己教師付き事前学習(SSP)は、ラベル付きデータなしで有意義な特徴表現を抽出できる機械学習の一般的な手法として登場した。
本研究は、コンピュータビジョンタスクにおける純粋な自己教師付き学習(SSL)技術の有効性を評価する。
論文 参考訳(メタデータ) (2023-08-22T13:55:57Z) - From Saliency to DINO: Saliency-guided Vision Transformer for Few-shot
Keypoint Detection [36.9781808268263]
FSKD(Few-shot Keypoint Detection)は、参照サンプルに応じて、新規またはベースキーポイントを含むキーポイントをローカライズする。
FSKDは、ユビキタスノイズと曖昧な局所パターンを克服するために、キーポイント類似性学習に意味論的に意味のある関係を必要とする。
数発のキーポイント検出のための新しいサリエンシ誘導型視覚変換器であるSalViTを提案する。
論文 参考訳(メタデータ) (2023-04-06T15:22:34Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Pose Discrepancy Spatial Transformer Based Feature Disentangling for
Partial Aspect Angles SAR Target Recognition [11.552273102567048]
本文は、合成開口レーダ(SAR)自動目標認識(ATR)のための新しいフレームワークであるDistSTNを提示する。
従来のSAR ATRアルゴリズムとは対照的に、DistSTNは非協調ターゲットのより困難な実用シナリオを検討している。
エンコーダデコーダ機構を用いて効率的な特徴抽出と認識を可能にする償却推論方式を開発する。
論文 参考訳(メタデータ) (2021-03-07T11:47:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。