論文の概要: Semantic-Aware Transformation-Invariant RoI Align
- arxiv url: http://arxiv.org/abs/2312.09609v1
- Date: Fri, 15 Dec 2023 08:50:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-12-18 16:38:01.329303
- Title: Semantic-Aware Transformation-Invariant RoI Align
- Title(参考訳): 意味認識変換-不変RoIアライメント
- Authors: Guo-Ye Yang, George Kiyohiro Nakayama, Zi-Kai Xiao, Tai-Jiang Mu,
Xiaolei Huang, Shi-Min Hu
- Abstract要約: 2段検出器は1段検出器よりも高い検出精度を持つことが多い。
SRA(Semantic RoI Align)と呼ばれる新しいRoI特徴抽出器を提案する。
SRAは2段検出器の様々な変換の下で不変のRoI特徴を抽出することができる。
- 参考スコア(独自算出の注目度): 26.823382081015055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Great progress has been made in learning-based object detection methods in
the last decade. Two-stage detectors often have higher detection accuracy than
one-stage detectors, due to the use of region of interest (RoI) feature
extractors which extract transformation-invariant RoI features for different
RoI proposals, making refinement of bounding boxes and prediction of object
categories more robust and accurate. However, previous RoI feature extractors
can only extract invariant features under limited transformations. In this
paper, we propose a novel RoI feature extractor, termed Semantic RoI Align
(SRA), which is capable of extracting invariant RoI features under a variety of
transformations for two-stage detectors. Specifically, we propose a semantic
attention module to adaptively determine different sampling areas by leveraging
the global and local semantic relationship within the RoI. We also propose a
Dynamic Feature Sampler which dynamically samples features based on the RoI
aspect ratio to enhance the efficiency of SRA, and a new position embedding,
\ie Area Embedding, to provide more accurate position information for SRA
through an improved sampling area representation. Experiments show that our
model significantly outperforms baseline models with slight computational
overhead. In addition, it shows excellent generalization ability and can be
used to improve performance with various state-of-the-art backbones and
detection methods.
- Abstract(参考訳): 過去10年間、学習に基づく物体検出手法は大きな進歩を遂げてきた。
2段検出器は、異なるroi提案に対して変換不変なroi特徴を抽出する領域抽出器(roi)を使用することにより、1段検出器よりも検出精度が高く、境界ボックスの改良とオブジェクトカテゴリの予測がより堅牢で正確である。
しかし、以前のRoI特徴抽出器は、限られた変換の下でのみ不変特徴を抽出できる。
本稿では,2段検出器の様々な変換の下で不変なRoI特徴を抽出できる新しいRoI特徴抽出器,Semantic RoI Align (SRA)を提案する。
具体的には,RoI内の大域的および局所的意味関係を利用して,異なるサンプリング領域を適応的に決定するセマンティックアテンションモジュールを提案する。
また、SRAの効率を高めるためにRoIアスペクト比に基づいて動的に特徴をサンプリングする動的特徴サンプリング器を提案し、改良されたサンプリング領域表現によりSRAのより正確な位置情報を提供するために、新しい位置埋め込みであるShaie Area Embeddingを提案する。
実験により,本モデルは計算オーバーヘッドの少ないベースラインモデルよりも有意に優れていた。
さらに、優れた一般化能力を示し、様々な最先端のバックボーンと検出方法による性能向上に使用できる。
関連論文リスト
- Wavelet-Guided Dual-Frequency Encoding for Remote Sensing Change Detection [67.84730634802204]
リモートセンシング画像の変化検出は,自然災害監視,都市拡張追跡,インフラ管理など,さまざまな工学的応用において重要な役割を担っている。
既存のほとんどの手法は空間領域モデリングに依存しており、特徴表現の限られた多様性は微妙な変化領域の検出を妨げる。
本研究では、特にウェーブレット領域における周波数領域の特徴モデリングが周波数成分の微細な違いを増幅し、空間領域において捉えにくいエッジ変化の知覚を高めることを観察する。
論文 参考訳(メタデータ) (2025-08-07T11:14:16Z) - DiffLoRA: Differential Low-Rank Adapters for Large Language Models [59.58987161199141]
本稿では,差分アテンション機構のパラメータ効率を考慮したDiffLoRAを提案する。
我々はDiffLoRAを、一般的なベンチマーク、多ショットインコンテキスト学習、RAG、長期コンテキストテストなど、幅広いNLPタスクで評価する。
論文 参考訳(メタデータ) (2025-07-31T14:24:59Z) - Continual Adaptation: Environment-Conditional Parameter Generation for Object Detection in Dynamic Scenarios [54.58186816693791]
環境は時間と空間によって常に変化し、クローズドセットの仮定に基づいて訓練された物体検出器にとって重要な課題となる。
そこで本研究では,微調整過程をパラメータ生成に変換する機構を提案する。
特に,2経路LoRAベースのドメイン認識アダプタを最初に設計し,特徴をドメイン不変およびドメイン固有コンポーネントに分解する。
論文 参考訳(メタデータ) (2025-06-30T17:14:12Z) - RDD: Robust Feature Detector and Descriptor using Deformable Transformer [8.01082121187363]
本稿では,新規かつ堅牢なキーポイント検出器/ディスクリプタであるRobust Deformable Detector (RDD)を提案する。
我々は、変形可能な注意が鍵となる位置に焦点を当て、探索空間の複雑さを効果的に減らすことを観察した。
提案手法は,スパースマッチングタスクにおいて,最先端のキーポイント検出/記述手法よりも優れている。
論文 参考訳(メタデータ) (2025-05-12T19:24:45Z) - Demystifying Catastrophic Forgetting in Two-Stage Incremental Object Detector [42.40881712297689]
破滅的な忘れ物は主にRoIヘッドに局在している。
NSGP-RePREは2種類のプロトタイプのリプレイを通じて忘れを緩和する。
NSGP-RePREはPascal VOCおよびMS COCOデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-08T12:10:02Z) - Mixture-of-Noises Enhanced Forgery-Aware Predictor for Multi-Face Manipulation Detection and Localization [52.87635234206178]
本稿では,多面的操作検出と局所化に適したMoNFAPという新しいフレームワークを提案する。
このフレームワークには2つの新しいモジュールが含まれている: Forgery-aware Unified Predictor (FUP) Module と Mixture-of-Noises Module (MNM)。
論文 参考訳(メタデータ) (2024-08-05T08:35:59Z) - A Refreshed Similarity-based Upsampler for Direct High-Ratio Feature Upsampling [54.05517338122698]
一般的な類似性に基づく機能アップサンプリングパイプラインが提案されている。
本稿では,セマンティック・アウェアとディテール・アウェアの両方の観点から,明示的に制御可能なクエリキー機能アライメントを提案する。
我々は,モーザイクアーティファクトを緩和する上ではシンプルだが有効であるHR特徴に対して,きめ細かな近傍選択戦略を開発する。
論文 参考訳(メタデータ) (2024-07-02T14:12:21Z) - Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。
注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文 参考訳(メタデータ) (2023-07-26T08:25:46Z) - R2FD2: Fast and Robust Matching of Multimodal Remote Sensing Image via
Repeatable Feature Detector and Rotation-invariant Feature Descriptor [3.395266574804949]
放射・回転差に頑健な特徴マッチング法(R2FD2)を提案する。
提案したR2FD2は、5つの最先端特徴マッチング法より優れ、普遍性と適応性に優れた利点がある。
我々のR2FD2は2ピクセル以内のマッチングの精度を達成し、他の最先端手法と比較してマッチング効率に大きな利点がある。
論文 参考訳(メタデータ) (2022-12-05T13:55:02Z) - Detecting Rotated Objects as Gaussian Distributions and Its 3-D
Generalization [81.29406957201458]
既存の検出方法は、パラメータ化バウンディングボックス(BBox)を使用して(水平)オブジェクトをモデル化し、検出する。
このような機構は回転検出に有効な回帰損失を構築するのに基本的な限界があると主張する。
回転した物体をガウス分布としてモデル化することを提案する。
2次元から3次元へのアプローチを、方向推定を扱うアルゴリズム設計により拡張する。
論文 参考訳(メタデータ) (2022-09-22T07:50:48Z) - AO2-DETR: Arbitrary-Oriented Object Detection Transformer [17.287517988299925]
本稿では、AO2-DETRと呼ばれるArbitrary-Oriented Object Detection TRansformerフレームワークを提案する。
指向的提案を明示的に生成するために、指向的提案生成機構を提案する。
また、直接セット予測のための1対1マッチングプロセスを保証するために、回転対応セットマッチング損失を用いる。
論文 参考訳(メタデータ) (2022-05-25T13:57:13Z) - Recurrent Glimpse-based Decoder for Detection with Transformer [85.64521612986456]
本稿では,Recurrent Glimpse-based deoder (REGO)について紹介する。
特に、REGOは多段階のリカレント処理構造を用いて、DETRの注目が徐々に前景オブジェクトに焦点を合わせるのを助ける。
REGOは、異なるDETR検出器の性能を最大7%向上させる。
論文 参考訳(メタデータ) (2021-12-09T00:29:19Z) - I^3Net: Implicit Instance-Invariant Network for Adapting One-Stage
Object Detectors [64.93963042395976]
暗黙のInstance-Invariant Network(I3Net)は、ワンステージ検出器の適応に適しています。
i3netは、異なる層における深い特徴の自然な特徴を利用してインスタンス不変な特徴を暗黙的に学習する。
実験によると、I3Netはベンチマークデータセットの最先端のパフォーマンスを上回っている。
論文 参考訳(メタデータ) (2021-03-25T11:14:36Z) - Generalizing Face Forgery Detection with High-frequency Features [63.33397573649408]
現在のCNNベースの検出器は、メソッド固有の色テクスチャに過度に適合するため、一般化に失敗する傾向にある。
フェースフォージェリ検出に高周波雑音を用いることを提案する。
1つは、複数のスケールで高周波ノイズを抽出するマルチスケールの高周波特徴抽出モジュールである。
2つ目は、低レベルRGB特徴抽出器を導く残差誘導空間注意モジュールで、新しい視点からフォージェリートレースにもっと集中する。
論文 参考訳(メタデータ) (2021-03-23T08:19:21Z) - RoRD: Rotation-Robust Descriptors and Orthographic Views for Local
Feature Matching [32.10261486751993]
本稿では,データ拡張と視点投影による不変記述子の学習を組み合わせる新しい枠組みを提案する。
提案手法の有効性をポーズ推定や視覚的位置認識などの重要課題に対して評価する。
論文 参考訳(メタデータ) (2021-03-15T17:40:25Z) - AFD-Net: Adaptive Fully-Dual Network for Few-Shot Object Detection [8.39479809973967]
Few-shot Object Detection (FSOD) は、未確認の物体に迅速に適応できる検出器の学習を目的としている。
既存の方法では、共有コンポーネントを用いて分類と局所化のサブタスクを実行することで、この問題を解決している。
本稿では,2つのサブタスクの明示的な分解を考慮し,両者の情報を活用して特徴表現の強化を図ることを提案する。
論文 参考訳(メタデータ) (2020-11-30T10:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。