論文の概要: Decoupled Self Attention for Accurate One Stage Object Detection
- arxiv url: http://arxiv.org/abs/2012.07630v2
- Date: Tue, 15 Dec 2020 06:47:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-08 14:29:05.648223
- Title: Decoupled Self Attention for Accurate One Stage Object Detection
- Title(参考訳): 高精度一段物体検出のための分離自己注意
- Authors: Kehe WU, Zuge Chen, Qi MA, Xiaoliang Zhang, Wei Li
- Abstract要約: 本稿では,1段階の物体検出モデルに対してデカップリング自己注意(DSA)モジュールを提案する。
DSAモジュールのネットワークは単純だが、オブジェクト検出の性能を効果的に向上させることができるが、多くの検出モデルに組み込むこともできる。
- 参考スコア(独自算出の注目度): 4.791635488070342
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the scale of object detection dataset is smaller than that of image
recognition dataset ImageNet, transfer learning has become a basic training
method for deep learning object detection models, which will pretrain the
backbone network of object detection model on ImageNet dataset to extract
features for classification and localization subtasks. However, the
classification task focuses on the salient region features of object, while the
location task focuses on the edge features of object, so there is certain
deviation between the features extracted by pretrained backbone network and the
features used for localization task. In order to solve this problem, a
decoupled self attention(DSA) module is proposed for one stage object detection
models in this paper. DSA includes two decoupled self-attention branches, so it
can extract appropriate features for different tasks. It is located between FPN
and head networks of subtasks, so it is used to extract global features based
on FPN fused features for different tasks independently. Although the network
of DSA module is simple, but it can effectively improve the performance of
object detection, also it can be easily embedded in many detection models. Our
experiments are based on the representative one-stage detection model
RetinaNet. In COCO dataset, when ResNet50 and ResNet101 are used as backbone
networks, the detection performances can be increased by 0.4% AP and 0.5% AP
respectively. When DSA module and object confidence task are applied in
RetinaNet together, the detection performances based on ResNet50 and ResNet101
can be increased by 1.0% AP and 1.4% AP respectively. The experiment results
show the effectiveness of DSA module. Code is at:
https://github.com/chenzuge1/DSANet.git.
- Abstract(参考訳): 物体検出データセットのスケールが画像認識データセットよりも小さいため、画像Netデータセット上で物体検出モデルのバックボーンネットワークを事前訓練し、分類および局所化サブタスクの特徴を抽出する、深層学習オブジェクト検出モデルの基本的な訓練方法となっている。
しかし,分類タスクは対象の健全領域の特徴に焦点をあて,位置タスクは対象のエッジ特徴に焦点を合わせ,事前学習したバックボーンネットワークによって抽出された特徴と局所化タスクに使用する特徴との間には一定のずれがある。
この問題を解決するために, 1段階の物体検出モデルに対して, 分離自己注意モジュール(DSA)を提案する。
dsaには分離された2つのセルフアテンションブランチが含まれているため、異なるタスクに適した機能を抽出することができる。
FPNとサブタスクのヘッドネットワークの間に位置するため、FPNの融合機能に基づいたグローバルな特徴を個別に抽出するために使用される。
DSAモジュールのネットワークは単純だが、オブジェクト検出の性能を効果的に向上させることができるが、多くの検出モデルに組み込むこともできる。
本実験は, 代表的な1段階検出モデルであるRetinaNetに基づく。
COCOデータセットでは、バックボーンネットワークとしてResNet50とResNet101を使用すると、検出性能がそれぞれ0.4%、APが0.5%向上する。
DSAモジュールとオブジェクト信頼タスクを共にRetinaNetに適用すると、ResNet50とResNet101に基づく検出性能をそれぞれ1.0%APと1.4%APで向上させることができる。
実験結果はDSAモジュールの有効性を示した。
https://github.com/chenzuge1/dsanet.git。
関連論文リスト
- Scale-Invariant Object Detection by Adaptive Convolution with Unified Global-Local Context [3.061662434597098]
本稿では,効率的なDetモデルに基づくSAC-Net(Switchable Atrous Convolutional Network)を用いたオブジェクト検出モデルを提案する。
提案したSAC-Netは,マルチスケールオブジェクト検出タスクの性能向上を実現するために,低レベル機能と高レベル機能の両方の利点をカプセル化している。
ベンチマークデータセットを用いた実験により,提案したSAC-Netは,精度の点で最先端モデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-09-17T10:08:37Z) - Innovative Horizons in Aerial Imagery: LSKNet Meets DiffusionDet for
Advanced Object Detection [55.2480439325792]
本稿では,LSKNetのバックボーンをDiffusionDetヘッドに統合したオブジェクト検出モデルの詳細な評価を行う。
提案手法は平均精度(MAP)を約45.7%向上させる。
この進歩は、提案された修正の有効性を強調し、航空画像解析の新しいベンチマークを設定する。
論文 参考訳(メタデータ) (2023-11-21T19:49:13Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - The Devil is in the Task: Exploiting Reciprocal Appearance-Localization
Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。
DFR-Netという動的特徴反射ネットワークを導入する。
我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文 参考訳(メタデータ) (2021-12-28T07:31:18Z) - Anchor Retouching via Model Interaction for Robust Object Detection in
Aerial Images [15.404024559652534]
本稿では,新しいトレーニングサンプルジェネレータを構築するために,動的拡張アンカー(DEA)ネットワークを提案する。
提案手法は,適度な推論速度とトレーニングの計算オーバーヘッドを伴って,最先端の性能を精度良く達成する。
論文 参考訳(メタデータ) (2021-12-13T14:37:20Z) - Multi-patch Feature Pyramid Network for Weakly Supervised Object
Detection in Optical Remote Sensing Images [39.25541709228373]
マルチパッチ特徴ピラミッドネットワーク(MPFP-Net)を用いたオブジェクト検出のための新しいアーキテクチャを提案する。
MPFP-Netは、トレーニング中の最も差別的なパッチのみを追求する現在のモデルとは異なる。
残余値の正則化と核融合遷移層を厳密にノルム保存する有効な方法を提案する。
論文 参考訳(メタデータ) (2021-08-18T09:25:39Z) - FCCDN: Feature Constraint Network for VHR Image Change Detection [12.670734830806591]
本稿では,変更検出のための特徴制約変更検出ネットワーク(FCCDN)を提案する。
両時間的特徴抽出と特徴融合を両立させる。
2つのビルディング変更検出データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-05-23T06:13:47Z) - Location-Sensitive Visual Recognition with Cross-IOU Loss [177.86369890708457]
本稿では,オブジェクト検出,インスタンスセグメンテーション,ポーズ推定のための位置感知ネットワーク (LSNet) という統合ソリューションを提案する。
ディープニューラルネットワークをバックボーンとして、LSNetは、ターゲットオブジェクトの形状を一緒に定義するアンカーポイントとランドマークのセットを予測します。
論文 参考訳(メタデータ) (2021-04-11T02:17:14Z) - Unsupervised Pretraining for Object Detection by Patch Reidentification [72.75287435882798]
教師なし表現学習は、オブジェクトディテクタの事前トレーニング表現で有望なパフォーマンスを実現します。
本研究では,オブジェクト検出のための簡易かつ効果的な表現学習手法であるパッチ再識別(Re-ID)を提案する。
私たちの方法は、トレーニングの反復やデータパーセンテージなど、すべての設定でCOCOの同等を大幅に上回ります。
論文 参考訳(メタデータ) (2021-03-08T15:13:59Z) - Few-shot Object Detection on Remote Sensing Images [11.40135025181393]
リモートセンシング画像におけるオブジェクト検出のための数ショットの学習手法を提案する。
我々は、YOLOv3アーキテクチャに基づいて、少数ショットオブジェクト検出モデルを構築し、マルチスケールオブジェクト検出フレームワークを開発する。
論文 参考訳(メタデータ) (2020-06-14T07:18:10Z) - One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。
また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。
提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文 参考訳(メタデータ) (2020-05-08T01:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。