論文の概要: Semantic-Aware Transformation-Invariant RoI Align
- arxiv url: http://arxiv.org/abs/2312.09609v1
- Date: Fri, 15 Dec 2023 08:50:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 16:38:01.329303
- Title: Semantic-Aware Transformation-Invariant RoI Align
- Title(参考訳): 意味認識変換-不変RoIアライメント
- Authors: Guo-Ye Yang, George Kiyohiro Nakayama, Zi-Kai Xiao, Tai-Jiang Mu,
Xiaolei Huang, Shi-Min Hu
- Abstract要約: 2段検出器は1段検出器よりも高い検出精度を持つことが多い。
SRA(Semantic RoI Align)と呼ばれる新しいRoI特徴抽出器を提案する。
SRAは2段検出器の様々な変換の下で不変のRoI特徴を抽出することができる。
- 参考スコア(独自算出の注目度): 26.823382081015055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Great progress has been made in learning-based object detection methods in
the last decade. Two-stage detectors often have higher detection accuracy than
one-stage detectors, due to the use of region of interest (RoI) feature
extractors which extract transformation-invariant RoI features for different
RoI proposals, making refinement of bounding boxes and prediction of object
categories more robust and accurate. However, previous RoI feature extractors
can only extract invariant features under limited transformations. In this
paper, we propose a novel RoI feature extractor, termed Semantic RoI Align
(SRA), which is capable of extracting invariant RoI features under a variety of
transformations for two-stage detectors. Specifically, we propose a semantic
attention module to adaptively determine different sampling areas by leveraging
the global and local semantic relationship within the RoI. We also propose a
Dynamic Feature Sampler which dynamically samples features based on the RoI
aspect ratio to enhance the efficiency of SRA, and a new position embedding,
\ie Area Embedding, to provide more accurate position information for SRA
through an improved sampling area representation. Experiments show that our
model significantly outperforms baseline models with slight computational
overhead. In addition, it shows excellent generalization ability and can be
used to improve performance with various state-of-the-art backbones and
detection methods.
- Abstract(参考訳): 過去10年間、学習に基づく物体検出手法は大きな進歩を遂げてきた。
2段検出器は、異なるroi提案に対して変換不変なroi特徴を抽出する領域抽出器(roi)を使用することにより、1段検出器よりも検出精度が高く、境界ボックスの改良とオブジェクトカテゴリの予測がより堅牢で正確である。
しかし、以前のRoI特徴抽出器は、限られた変換の下でのみ不変特徴を抽出できる。
本稿では,2段検出器の様々な変換の下で不変なRoI特徴を抽出できる新しいRoI特徴抽出器,Semantic RoI Align (SRA)を提案する。
具体的には,RoI内の大域的および局所的意味関係を利用して,異なるサンプリング領域を適応的に決定するセマンティックアテンションモジュールを提案する。
また、SRAの効率を高めるためにRoIアスペクト比に基づいて動的に特徴をサンプリングする動的特徴サンプリング器を提案し、改良されたサンプリング領域表現によりSRAのより正確な位置情報を提供するために、新しい位置埋め込みであるShaie Area Embeddingを提案する。
実験により,本モデルは計算オーバーヘッドの少ないベースラインモデルよりも有意に優れていた。
さらに、優れた一般化能力を示し、様々な最先端のバックボーンと検出方法による性能向上に使用できる。
関連論文リスト
- Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。
注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文 参考訳(メタデータ) (2023-07-26T08:25:46Z) - Hausdorff Distance Matching with Adaptive Query Denoising for Rotated
Detection Transformer [4.519754139322585]
回転物体検出におけるDETRの適用は、確立された指向性物体検出器と比較して、最適以下の性能を示す。
ハンガリーのマッチングに対するハウスドルフ距離に基づくコストを導入し、予測と地上の真実との相違をより正確に定量化する。
本稿では,モデル改善に寄与しない過剰なノイズクエリを選択的にフィルタリングするために,ハンガリー語マッチングを用いた適応型クエリ記述手法を提案する。
論文 参考訳(メタデータ) (2023-05-12T16:42:54Z) - Adaptive Rotated Convolution for Rotated Object Detection [96.94590550217718]
本稿では、回転物体検出問題に対処するために、適応回転変換(ARC)モジュールを提案する。
ARCモジュールでは、コンボリューションカーネルが適応的に回転し、異なる画像に異なる向きのオブジェクト特徴を抽出する。
提案手法は,81.77%mAPのDOTAデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-14T11:53:12Z) - R2FD2: Fast and Robust Matching of Multimodal Remote Sensing Image via
Repeatable Feature Detector and Rotation-invariant Feature Descriptor [3.395266574804949]
放射・回転差に頑健な特徴マッチング法(R2FD2)を提案する。
提案したR2FD2は、5つの最先端特徴マッチング法より優れ、普遍性と適応性に優れた利点がある。
我々のR2FD2は2ピクセル以内のマッチングの精度を達成し、他の最先端手法と比較してマッチング効率に大きな利点がある。
論文 参考訳(メタデータ) (2022-12-05T13:55:02Z) - Detecting Rotated Objects as Gaussian Distributions and Its 3-D
Generalization [81.29406957201458]
既存の検出方法は、パラメータ化バウンディングボックス(BBox)を使用して(水平)オブジェクトをモデル化し、検出する。
このような機構は回転検出に有効な回帰損失を構築するのに基本的な限界があると主張する。
回転した物体をガウス分布としてモデル化することを提案する。
2次元から3次元へのアプローチを、方向推定を扱うアルゴリズム設計により拡張する。
論文 参考訳(メタデータ) (2022-09-22T07:50:48Z) - Recurrent Glimpse-based Decoder for Detection with Transformer [85.64521612986456]
本稿では,Recurrent Glimpse-based deoder (REGO)について紹介する。
特に、REGOは多段階のリカレント処理構造を用いて、DETRの注目が徐々に前景オブジェクトに焦点を合わせるのを助ける。
REGOは、異なるDETR検出器の性能を最大7%向上させる。
論文 参考訳(メタデータ) (2021-12-09T00:29:19Z) - I^3Net: Implicit Instance-Invariant Network for Adapting One-Stage
Object Detectors [64.93963042395976]
暗黙のInstance-Invariant Network(I3Net)は、ワンステージ検出器の適応に適しています。
i3netは、異なる層における深い特徴の自然な特徴を利用してインスタンス不変な特徴を暗黙的に学習する。
実験によると、I3Netはベンチマークデータセットの最先端のパフォーマンスを上回っている。
論文 参考訳(メタデータ) (2021-03-25T11:14:36Z) - Generalizing Face Forgery Detection with High-frequency Features [63.33397573649408]
現在のCNNベースの検出器は、メソッド固有の色テクスチャに過度に適合するため、一般化に失敗する傾向にある。
フェースフォージェリ検出に高周波雑音を用いることを提案する。
1つは、複数のスケールで高周波ノイズを抽出するマルチスケールの高周波特徴抽出モジュールである。
2つ目は、低レベルRGB特徴抽出器を導く残差誘導空間注意モジュールで、新しい視点からフォージェリートレースにもっと集中する。
論文 参考訳(メタデータ) (2021-03-23T08:19:21Z) - RoRD: Rotation-Robust Descriptors and Orthographic Views for Local
Feature Matching [32.10261486751993]
本稿では,データ拡張と視点投影による不変記述子の学習を組み合わせる新しい枠組みを提案する。
提案手法の有効性をポーズ推定や視覚的位置認識などの重要課題に対して評価する。
論文 参考訳(メタデータ) (2021-03-15T17:40:25Z) - AFD-Net: Adaptive Fully-Dual Network for Few-Shot Object Detection [8.39479809973967]
Few-shot Object Detection (FSOD) は、未確認の物体に迅速に適応できる検出器の学習を目的としている。
既存の方法では、共有コンポーネントを用いて分類と局所化のサブタスクを実行することで、この問題を解決している。
本稿では,2つのサブタスクの明示的な分解を考慮し,両者の情報を活用して特徴表現の強化を図ることを提案する。
論文 参考訳(メタデータ) (2020-11-30T10:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。