論文の概要: Hierarchical Context Embedding for Region-based Object Detection
- arxiv url: http://arxiv.org/abs/2008.01338v1
- Date: Tue, 4 Aug 2020 05:33:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 00:22:49.055279
- Title: Hierarchical Context Embedding for Region-based Object Detection
- Title(参考訳): 領域ベースオブジェクト検出のための階層的コンテキスト埋め込み
- Authors: Zhao-Min Chen, Xin Jin, Borui Zhao, Xiu-Shen Wei, Yanwen Guo
- Abstract要約: 階層型コンテキスト埋め込み(HCE)フレームワークは、プラグイン・アンド・プレイコンポーネントとして適用することができる。
文脈依存型オブジェクトカテゴリの認識を促進するために,画像レベルのカテゴリ埋め込みモジュールを提案する。
画像全体と関心領域の両方に階層的に埋め込まれたコンテキスト情報を活用することで、新しいRoI機能を生成する。
- 参考スコア(独自算出の注目度): 40.9463003508027
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art two-stage object detectors apply a classifier to a sparse
set of object proposals, relying on region-wise features extracted by RoIPool
or RoIAlign as inputs. The region-wise features, in spite of aligning well with
the proposal locations, may still lack the crucial context information which is
necessary for filtering out noisy background detections, as well as recognizing
objects possessing no distinctive appearances. To address this issue, we
present a simple but effective Hierarchical Context Embedding (HCE) framework,
which can be applied as a plug-and-play component, to facilitate the
classification ability of a series of region-based detectors by mining
contextual cues. Specifically, to advance the recognition of context-dependent
object categories, we propose an image-level categorical embedding module which
leverages the holistic image-level context to learn object-level concepts.
Then, novel RoI features are generated by exploiting hierarchically embedded
context information beneath both whole images and interested regions, which are
also complementary to conventional RoI features. Moreover, to make full use of
our hierarchical contextual RoI features, we propose the early-and-late fusion
strategies (i.e., feature fusion and confidence fusion), which can be combined
to boost the classification accuracy of region-based detectors. Comprehensive
experiments demonstrate that our HCE framework is flexible and generalizable,
leading to significant and consistent improvements upon various region-based
detectors, including FPN, Cascade R-CNN and Mask R-CNN.
- Abstract(参考訳): 最先端の2段階オブジェクト検出器は、RoIPoolやRoIAlignによって抽出された領域的な特徴を入力として、スパースなオブジェクト提案に分類器を適用する。
地域的特徴は、提案された場所とよく一致しているが、ノイズのある背景検出をフィルタリングするために必要な重要なコンテキスト情報や、独特の外観を持たない物体を認識できない可能性がある。
この問題に対処するために、我々は、一連の領域ベース検出器の分類能力を高めるために、プラグイン・アンド・プレイコンポーネントとして適用可能な、シンプルで効果的な階層型コンテキスト埋め込み(HCE)フレームワークを提案する。
具体的には、文脈依存オブジェクトカテゴリの認識を進めるために、総合的なイメージレベルコンテキストを利用してオブジェクトレベルの概念を学習するイメージレベルカテゴリ埋め込みモジュールを提案する。
そして、画像全体と関心領域の両方の下に階層的に埋め込まれたコンテキスト情報を利用して、新しいRoI特徴を生成し、従来のRoI特徴を補完する。
さらに,我々の階層型文脈型RoI特徴をフル活用するために,地域型検出器の分類精度を高めるために,早期・後期融合戦略(特徴融合と信頼融合)を提案する。
包括的実験により,我々のhceフレームワークは柔軟かつ一般化可能であり,fpn,カスケードr-cnn,マスクr-cnnなど,様々な領域ベースの検出器に対して有意かつ一貫した改善がもたらされた。
関連論文リスト
- Spatial Structure Constraints for Weakly Supervised Semantic
Segmentation [100.0316479167605]
クラスアクティベーションマップ(CAM)は、オブジェクトの最も識別性の高い部分のみを見つけることができる。
注意伸縮の余剰なオブジェクトの過剰な活性化を軽減するために,弱い教師付きセマンティックセマンティックセグメンテーションのための空間構造制約(SSC)を提案する。
提案手法は,PASCAL VOC 2012とCOCOデータセットでそれぞれ72.7%,47.0%mIoUを達成した。
論文 参考訳(メタデータ) (2024-01-20T05:25:25Z) - Weakly Supervised Open-Vocabulary Object Detection [31.605276665964787]
本稿では、従来のWSODを拡張するために、弱教師付きオープン語彙オブジェクト検出フレームワーク、すなわちWSOVODを提案する。
これを実現するために、データセットレベルの特徴適応、画像レベルの有意なオブジェクトローカライゼーション、地域レベルの視覚言語アライメントを含む3つの重要な戦略を検討する。
論文 参考訳(メタデータ) (2023-12-19T18:59:53Z) - Focus on Local Regions for Query-based Object Detection [14.982147587695652]
本稿では,デコーダのみを備えたトランスフォーマー型アーキテクチャであるFoLRを提案する。
無関係なオブジェクト間の接続を分離することで、自己注意を改善する。
また、クエリの局所領域に基づいて効率的な特徴を抽出する適応サンプリング手法を設計する。
論文 参考訳(メタデータ) (2023-10-10T09:41:13Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Unveiling the Potential of Structure-Preserving for Weakly Supervised
Object Localization [71.79436685992128]
本稿では,WSOLの畳み込み機能に組み込まれた構造情報を完全に活用するための2段階構造保存アクティベーション(SPA)を提案する。
第1段階では、分類ネットワークによって引き起こされる構造ミス問題を軽減するために制限アクティベーションモジュール(ram)が設計されている。
第2段階では, 自己相関マップ生成(SCG)モジュールと呼ばれるプロセス後アプローチを提案し, 構造保存ローカライゼーションマップを得る。
論文 参考訳(メタデータ) (2021-03-08T03:04:14Z) - Global Context Aware RCNN for Object Detection [1.1939762265857436]
我々はGCA (Global Context Aware) RCNNと呼ばれる新しいエンドツーエンドのトレーニング可能なフレームワークを提案する。
GCAフレームワークの中核となるコンポーネントは、グローバルな特徴ピラミッドとアテンション戦略の両方を特徴抽出と特徴改善に使用する、コンテキスト認識メカニズムである。
最後に,モデルの複雑さと計算負担をわずかに増加させる軽量バージョンを提案する。
論文 参考訳(メタデータ) (2020-12-04T14:56:46Z) - Local Context Attention for Salient Object Segmentation [5.542044768017415]
本研究では,一様表現型アーキテクチャで局所強化特徴写像を生成するための新しいローカルコンテキスト注意ネットワーク(LCANet)を提案する。
提案するネットワークでは,粗い予測と大域的コンテキストの間の相関特徴写像を計算し,アテンショナル・コリレーション・フィルタ (ACF) モジュールを導入している。
いくつかの有能なオブジェクトセグメンテーションデータセットに対して総合的な実験を行い、提案したLCANetの最先端手法に対する優れた性能を実証した。
論文 参考訳(メタデータ) (2020-09-24T09:20:06Z) - Landmark Guidance Independent Spatio-channel Attention and Complementary
Context Information based Facial Expression Recognition [5.076419064097734]
現代の顔表情認識(FER)アーキテクチャは、注意を定義するためにランドマーク検出器のような外部ソースに依存している。
本研究では,空間的位置当たりのチャネルごとの局所的および大域的注目度を求める FER のエンドツーエンドアーキテクチャを提案する。
提案したモデルのロバスト性と優れた性能は,組込みデータセットと組込みデータセットの両方で実証される。
論文 参考訳(メタデータ) (2020-07-20T17:33:32Z) - Global Context-Aware Progressive Aggregation Network for Salient Object
Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。
提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-02T04:26:10Z) - Weakly Supervised Attention Pyramid Convolutional Neural Network for
Fine-Grained Visual Classification [71.96618723152487]
注意ピラミッド畳み込みニューラルネットワーク(AP-CNN)について紹介する。
AP-CNNは高レベルのセマンティックと低レベルの詳細な特徴表現の両方を学ぶ。
追加のバウンディングボックス/パートアノテーションを必要とせずに、エンドツーエンドでトレーニングすることができる。
論文 参考訳(メタデータ) (2020-02-09T12:33:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。