論文の概要: Attention-guided Context Feature Pyramid Network for Object Detection
- arxiv url: http://arxiv.org/abs/2005.11475v1
- Date: Sat, 23 May 2020 05:24:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 03:35:45.251963
- Title: Attention-guided Context Feature Pyramid Network for Object Detection
- Title(参考訳): 物体検出のための注意誘導コンテキスト特徴ピラミッドネットワーク
- Authors: Junxu Cao, Qi Chen, Jun Guo, and Ruichao Shi
- Abstract要約: 私たちはAttention-guided Context Feature Pyramid Network (AC-FPN)と呼ばれる新しいアーキテクチャを構築します。
AC-FPNは、注意誘導型マルチパス機能を統合することにより、様々な大きな受容領域からの識別情報を利用する。
我々のAC-FPNは既存のFPNベースのモデルに簡単に接続できる。
- 参考スコア(独自算出の注目度): 10.30536638944019
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For object detection, how to address the contradictory requirement between
feature map resolution and receptive field on high-resolution inputs still
remains an open question. In this paper, to tackle this issue, we build a novel
architecture, called Attention-guided Context Feature Pyramid Network (AC-FPN),
that exploits discriminative information from various large receptive fields
via integrating attention-guided multi-path features. The model contains two
modules. The first one is Context Extraction Module (CEM) that explores large
contextual information from multiple receptive fields. As redundant contextual
relations may mislead localization and recognition, we also design the second
module named Attention-guided Module (AM), which can adaptively capture the
salient dependencies over objects by using the attention mechanism. AM consists
of two sub-modules, i.e., Context Attention Module (CxAM) and Content Attention
Module (CnAM), which focus on capturing discriminative semantics and locating
precise positions, respectively. Most importantly, our AC-FPN can be readily
plugged into existing FPN-based models. Extensive experiments on object
detection and instance segmentation show that existing models with our proposed
CEM and AM significantly surpass their counterparts without them, and our model
successfully obtains state-of-the-art results. We have released the source code
at https://github.com/Caojunxu/AC-FPN.
- Abstract(参考訳): オブジェクト検出では、高分解能入力における特徴マップ解像度と受容フィールドの間の矛盾する要件にどう対処すればよいかはまだ未解決のままである。
本稿では,注意誘導型マルチパス機能を統合することで,様々な大きな受容領域からの識別情報を活用できる,注意誘導型コンテキスト特徴ピラミッドネットワーク(AC-FPN)という新しいアーキテクチャを構築する。
モデルは2つのモジュールを含む。
ひとつはコンテキスト抽出モジュール(CEM)で、複数の受容領域から大きなコンテキスト情報を探索する。
冗長な文脈関係は、ローカライゼーションと認識を誤解させる可能性があるため、アテンション機構を用いてオブジェクト上のサルエントな依存関係を適応的に捉えるアテンションガイドモジュール(am)という2つ目のモジュールも設計する。
AMは2つのサブモジュール、すなわちコンテキスト注意モジュール(CxAM)とコンテンツ注意モジュール(CnAM)で構成される。
最も重要なことは、当社のAC-FPNを既存のFPNベースのモデルに簡単に接続できることです。
オブジェクト検出とインスタンスセグメンテーションに関する広範囲な実験により,提案したCEMとAMの既存モデルは,それらのない既存モデルよりも有意に優れており,我々のモデルは最先端の結果を得ることができた。
ソースコードはhttps://github.com/caojunxu/ac-fpnで公開しました。
関連論文リスト
- A Plug-and-Play Method for Rare Human-Object Interactions Detection by Bridging Domain Gap [50.079224604394]
textbfContext-textbfEnhanced textbfFeature textbfAment (CEFA) と呼ばれる新しいモデルに依存しないフレームワークを提案する。
CEFAは機能アライメントモジュールとコンテキスト拡張モジュールで構成される。
本手法は, 稀なカテゴリにおけるHOIモデルの検出性能を向上させるために, プラグアンドプレイモジュールとして機能する。
論文 参考訳(メタデータ) (2024-07-31T08:42:48Z) - STF: Spatio-Temporal Fusion Module for Improving Video Object Detection [7.213855322671065]
ビデオ内のConsive frameは冗長性を含んでいるが、検出タスクの補完情報も含んでいる。
本稿では,この補完情報を活用するための時空間融合フレームワーク(STF)を提案する。
提案した時間融合モジュールは、ベースラインオブジェクト検出器と比較して検出性能が向上する。
論文 参考訳(メタデータ) (2024-02-16T15:19:39Z) - Cross-Domain Few-Shot Object Detection via Enhanced Open-Set Object Detector [72.05791402494727]
本稿では,CD-FSODを用いたクロスドメイン小ショット検出法について検討する。
最小限のラベル付き例で、新しいドメインのための正確なオブジェクト検出器を開発することを目的としている。
論文 参考訳(メタデータ) (2024-02-05T15:25:32Z) - Context-Enhanced Detector For Building Detection From Remote Sensing Images [41.3238458718635]
コンテキスト強化検出器(CEDet)と呼ばれる新しい手法を提案する。
提案手法では,3段階のカスケード構造を用いてコンテキスト情報の抽出を強化し,建物検出精度を向上させる。
提案手法は,CNBuilding-9P,CNBuilding-23P,SpaceNetを含む3つのビルディング検出ベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-11T16:33:30Z) - Object-Centric Multiple Object Tracking [124.30650395969126]
本稿では,多目的追跡パイプラインのためのビデオオブジェクト中心モデルを提案する。
オブジェクト中心のスロットを検出出力に適応するインデックスマージモジュールと、オブジェクトメモリモジュールで構成される。
オブジェクト中心学習に特化して、オブジェクトのローカライゼーションと機能バインディングのためのスパース検出ラベルしか必要としない。
論文 参考訳(メタデータ) (2023-09-01T03:34:12Z) - LOIS: Looking Out of Instance Semantics for Visual Question Answering [17.076621453814926]
画像中のオブジェクトの意味論の因果関係を理解するために,ボックス境界のないモデルフレームワークを提案する。
我々は、インスタンスオブジェクトと背景情報の間のより洗練された、より深い視覚的意味関係をモデル化するための相互関係注意モジュールを実装した。
提案するアテンションモデルにより,重要な単語関連質問に焦点をあてることで,より健全な画像領域を解析することができる。
論文 参考訳(メタデータ) (2023-07-26T12:13:00Z) - Dual-Gated Fusion with Prefix-Tuning for Multi-Modal Relation Extraction [13.454953507205278]
マルチモーダル関係抽出は、視覚的手がかりを含むテキスト中の2つの実体間の関係を特定することを目的としている。
本稿では,テキスト,エンティティペア,画像/オブジェクトのより深い相関関係をよりよく捉えるための新しいMMREフレームワークを提案する。
本手法は, 少数の状況においても, 強力な競合相手と比較して優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-06-19T15:31:34Z) - Semantic Feature Integration network for Fine-grained Visual
Classification [5.182627302449368]
本稿では,これらの課題に対処するためにセマンティック・フィーチャー・インテグレーション・ネットワーク(SFI-Net)を提案する。
不要な特徴を排除し、識別的特徴間の意味関係を再構築することにより、SFI-Netは満足な性能を実現した。
論文 参考訳(メタデータ) (2023-02-13T07:32:25Z) - SIM-Trans: Structure Information Modeling Transformer for Fine-grained
Visual Categorization [59.732036564862796]
本稿では,オブジェクト構造情報を変換器に組み込んだSIM-Trans(Structure Information Modeling Transformer)を提案する。
提案した2つのモジュールは軽量化されており、任意のトランスフォーマーネットワークにプラグインでき、エンドツーエンドで容易に訓練できる。
実験と解析により,提案したSIM-Transが細粒度視覚分類ベンチマークの最先端性能を達成することを示した。
論文 参考訳(メタデータ) (2022-08-31T03:00:07Z) - BatchFormerV2: Exploring Sample Relationships for Dense Representation
Learning [88.82371069668147]
BatchFormerV2はより一般的なバッチトランスフォーマーモジュールである。
BatchFormerV2は、現在のDETRベースの検出方法を1.3%以上改善している。
論文 参考訳(メタデータ) (2022-04-04T05:53:42Z) - Online Multiple Object Tracking with Cross-Task Synergy [120.70085565030628]
位置予測と埋め込み結合の相乗効果を考慮した新しい統一モデルを提案する。
この2つのタスクは、時間認識対象の注意と注意の注意、およびアイデンティティ認識メモリ集約モデルによってリンクされる。
論文 参考訳(メタデータ) (2021-04-01T10:19:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。