論文の概要: Semantic-Aware Transformation-Invariant RoI Align
- arxiv url: http://arxiv.org/abs/2312.09609v1
- Date: Fri, 15 Dec 2023 08:50:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 16:38:01.329303
- Title: Semantic-Aware Transformation-Invariant RoI Align
- Title(参考訳): 意味認識変換-不変RoIアライメント
- Authors: Guo-Ye Yang, George Kiyohiro Nakayama, Zi-Kai Xiao, Tai-Jiang Mu,
Xiaolei Huang, Shi-Min Hu
- Abstract要約: 2段検出器は1段検出器よりも高い検出精度を持つことが多い。
SRA(Semantic RoI Align)と呼ばれる新しいRoI特徴抽出器を提案する。
SRAは2段検出器の様々な変換の下で不変のRoI特徴を抽出することができる。
- 参考スコア(独自算出の注目度): 26.823382081015055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Great progress has been made in learning-based object detection methods in
the last decade. Two-stage detectors often have higher detection accuracy than
one-stage detectors, due to the use of region of interest (RoI) feature
extractors which extract transformation-invariant RoI features for different
RoI proposals, making refinement of bounding boxes and prediction of object
categories more robust and accurate. However, previous RoI feature extractors
can only extract invariant features under limited transformations. In this
paper, we propose a novel RoI feature extractor, termed Semantic RoI Align
(SRA), which is capable of extracting invariant RoI features under a variety of
transformations for two-stage detectors. Specifically, we propose a semantic
attention module to adaptively determine different sampling areas by leveraging
the global and local semantic relationship within the RoI. We also propose a
Dynamic Feature Sampler which dynamically samples features based on the RoI
aspect ratio to enhance the efficiency of SRA, and a new position embedding,
\ie Area Embedding, to provide more accurate position information for SRA
through an improved sampling area representation. Experiments show that our
model significantly outperforms baseline models with slight computational
overhead. In addition, it shows excellent generalization ability and can be
used to improve performance with various state-of-the-art backbones and
detection methods.
- Abstract(参考訳): 過去10年間、学習に基づく物体検出手法は大きな進歩を遂げてきた。
2段検出器は、異なるroi提案に対して変換不変なroi特徴を抽出する領域抽出器(roi)を使用することにより、1段検出器よりも検出精度が高く、境界ボックスの改良とオブジェクトカテゴリの予測がより堅牢で正確である。
しかし、以前のRoI特徴抽出器は、限られた変換の下でのみ不変特徴を抽出できる。
本稿では,2段検出器の様々な変換の下で不変なRoI特徴を抽出できる新しいRoI特徴抽出器,Semantic RoI Align (SRA)を提案する。
具体的には,RoI内の大域的および局所的意味関係を利用して,異なるサンプリング領域を適応的に決定するセマンティックアテンションモジュールを提案する。
また、SRAの効率を高めるためにRoIアスペクト比に基づいて動的に特徴をサンプリングする動的特徴サンプリング器を提案し、改良されたサンプリング領域表現によりSRAのより正確な位置情報を提供するために、新しい位置埋め込みであるShaie Area Embeddingを提案する。
実験により,本モデルは計算オーバーヘッドの少ないベースラインモデルよりも有意に優れていた。
さらに、優れた一般化能力を示し、様々な最先端のバックボーンと検出方法による性能向上に使用できる。
関連論文リスト
- Mixture-of-Noises Enhanced Forgery-Aware Predictor for Multi-Face Manipulation Detection and Localization [52.87635234206178]
本稿では,多面的操作検出と局所化に適したMoNFAPという新しいフレームワークを提案する。
このフレームワークには2つの新しいモジュールが含まれている: Forgery-aware Unified Predictor (FUP) Module と Mixture-of-Noises Module (MNM)。
論文 参考訳(メタデータ) (2024-08-05T08:35:59Z) - Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。
注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文 参考訳(メタデータ) (2023-07-26T08:25:46Z) - R2FD2: Fast and Robust Matching of Multimodal Remote Sensing Image via
Repeatable Feature Detector and Rotation-invariant Feature Descriptor [3.395266574804949]
放射・回転差に頑健な特徴マッチング法(R2FD2)を提案する。
提案したR2FD2は、5つの最先端特徴マッチング法より優れ、普遍性と適応性に優れた利点がある。
我々のR2FD2は2ピクセル以内のマッチングの精度を達成し、他の最先端手法と比較してマッチング効率に大きな利点がある。
論文 参考訳(メタデータ) (2022-12-05T13:55:02Z) - Detecting Rotated Objects as Gaussian Distributions and Its 3-D
Generalization [81.29406957201458]
既存の検出方法は、パラメータ化バウンディングボックス(BBox)を使用して(水平)オブジェクトをモデル化し、検出する。
このような機構は回転検出に有効な回帰損失を構築するのに基本的な限界があると主張する。
回転した物体をガウス分布としてモデル化することを提案する。
2次元から3次元へのアプローチを、方向推定を扱うアルゴリズム設計により拡張する。
論文 参考訳(メタデータ) (2022-09-22T07:50:48Z) - AO2-DETR: Arbitrary-Oriented Object Detection Transformer [17.287517988299925]
本稿では、AO2-DETRと呼ばれるArbitrary-Oriented Object Detection TRansformerフレームワークを提案する。
指向的提案を明示的に生成するために、指向的提案生成機構を提案する。
また、直接セット予測のための1対1マッチングプロセスを保証するために、回転対応セットマッチング損失を用いる。
論文 参考訳(メタデータ) (2022-05-25T13:57:13Z) - Recurrent Glimpse-based Decoder for Detection with Transformer [85.64521612986456]
本稿では,Recurrent Glimpse-based deoder (REGO)について紹介する。
特に、REGOは多段階のリカレント処理構造を用いて、DETRの注目が徐々に前景オブジェクトに焦点を合わせるのを助ける。
REGOは、異なるDETR検出器の性能を最大7%向上させる。
論文 参考訳(メタデータ) (2021-12-09T00:29:19Z) - I^3Net: Implicit Instance-Invariant Network for Adapting One-Stage
Object Detectors [64.93963042395976]
暗黙のInstance-Invariant Network(I3Net)は、ワンステージ検出器の適応に適しています。
i3netは、異なる層における深い特徴の自然な特徴を利用してインスタンス不変な特徴を暗黙的に学習する。
実験によると、I3Netはベンチマークデータセットの最先端のパフォーマンスを上回っている。
論文 参考訳(メタデータ) (2021-03-25T11:14:36Z) - Generalizing Face Forgery Detection with High-frequency Features [63.33397573649408]
現在のCNNベースの検出器は、メソッド固有の色テクスチャに過度に適合するため、一般化に失敗する傾向にある。
フェースフォージェリ検出に高周波雑音を用いることを提案する。
1つは、複数のスケールで高周波ノイズを抽出するマルチスケールの高周波特徴抽出モジュールである。
2つ目は、低レベルRGB特徴抽出器を導く残差誘導空間注意モジュールで、新しい視点からフォージェリートレースにもっと集中する。
論文 参考訳(メタデータ) (2021-03-23T08:19:21Z) - RoRD: Rotation-Robust Descriptors and Orthographic Views for Local
Feature Matching [32.10261486751993]
本稿では,データ拡張と視点投影による不変記述子の学習を組み合わせる新しい枠組みを提案する。
提案手法の有効性をポーズ推定や視覚的位置認識などの重要課題に対して評価する。
論文 参考訳(メタデータ) (2021-03-15T17:40:25Z) - AFD-Net: Adaptive Fully-Dual Network for Few-Shot Object Detection [8.39479809973967]
Few-shot Object Detection (FSOD) は、未確認の物体に迅速に適応できる検出器の学習を目的としている。
既存の方法では、共有コンポーネントを用いて分類と局所化のサブタスクを実行することで、この問題を解決している。
本稿では,2つのサブタスクの明示的な分解を考慮し,両者の情報を活用して特徴表現の強化を図ることを提案する。
論文 参考訳(メタデータ) (2020-11-30T10:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。