論文の概要: Global Context Aware RCNN for Object Detection
- arxiv url: http://arxiv.org/abs/2012.02637v1
- Date: Fri, 4 Dec 2020 14:56:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-22 20:40:24.230033
- Title: Global Context Aware RCNN for Object Detection
- Title(参考訳): オブジェクト検出のためのグローバルコンテキスト認識RCNN
- Authors: Wenchao Zhang, Chong Fu, Haoyu Xie, Mai Zhu, Ming Tie, Junxin Chen
- Abstract要約: 我々はGCA (Global Context Aware) RCNNと呼ばれる新しいエンドツーエンドのトレーニング可能なフレームワークを提案する。
GCAフレームワークの中核となるコンポーネントは、グローバルな特徴ピラミッドとアテンション戦略の両方を特徴抽出と特徴改善に使用する、コンテキスト認識メカニズムである。
最後に,モデルの複雑さと計算負担をわずかに増加させる軽量バージョンを提案する。
- 参考スコア(独自算出の注目度): 1.1939762265857436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: RoIPool/RoIAlign is an indispensable process for the typical two-stage object
detection algorithm, it is used to rescale the object proposal cropped from the
feature pyramid to generate a fixed size feature map. However, these cropped
feature maps of local receptive fields will heavily lose global context
information. To tackle this problem, we propose a novel end-to-end trainable
framework, called Global Context Aware (GCA) RCNN, aiming at assisting the
neural network in strengthening the spatial correlation between the background
and the foreground by fusing global context information. The core component of
our GCA framework is a context aware mechanism, in which both global feature
pyramid and attention strategies are used for feature extraction and feature
refinement, respectively. Specifically, we leverage the dense connection to
improve the information flow of the global context at different stages in the
top-down process of FPN, and further use the attention mechanism to refine the
global context at each level in the feature pyramid. In the end, we also
present a lightweight version of our method, which only slightly increases
model complexity and computational burden. Experimental results on COCO
benchmark dataset demonstrate the significant advantages of our approach.
- Abstract(参考訳): RoIPool/RoIAlignは、典型的な2段階オブジェクト検出アルゴリズムに必要なプロセスであり、特徴ピラミッドから抽出したオブジェクト提案を再スケールして固定サイズの特徴写像を生成するために使用される。
しかし、これらの局所受容領域の特徴マップは、グローバルな文脈情報を著しく失うことになる。
この問題に対処するため,GCA (Global Context Aware) RCNN (Global Context Aware) と呼ばれる新しいエンドツーエンドのトレーニング可能なフレームワークを提案する。
GCAフレームワークの中核となるコンポーネントは、グローバルな特徴ピラミッドとアテンション戦略をそれぞれ、特徴抽出と特徴改善に使用するコンテキスト認識メカニズムである。
具体的には、FPNのトップダウンプロセスにおけるグローバルコンテキストの情報フローを改善するために、密接な接続を活用し、さらに注目機構を使用して、特徴ピラミッドの各レベルにおけるグローバルコンテキストを洗練する。
最後に,本手法の軽量版も提示し,モデルの複雑さと計算負荷をわずかに増やした。
COCOベンチマークデータセットの実験結果は、我々のアプローチの大きな利点を示している。
関連論文リスト
- Point Cloud Understanding via Attention-Driven Contrastive Learning [64.65145700121442]
トランスフォーマーベースのモデルは、自己認識機構を活用することにより、先進的なポイントクラウド理解を持つ。
PointACLは、これらの制限に対処するために設計された、注意駆動のコントラスト学習フレームワークである。
本手法では, 注意駆動型動的マスキング手法を用いて, モデルが非集中領域に集中するように誘導する。
論文 参考訳(メタデータ) (2024-11-22T05:41:00Z) - Localization, balance and affinity: a stronger multifaceted collaborative salient object detector in remote sensing images [24.06927394483275]
ORSIにおいて,LBA-MCNetと呼ばれる,より強力な多面協調型サリエント物体検出器を提案する。
このネットワークは、ターゲットの正確な位置決め、詳細な機能のバランス、画像レベルのグローバルコンテキスト情報のモデリングに重点を置いている。
論文 参考訳(メタデータ) (2024-10-31T14:50:48Z) - Global Feature Pyramid Network [1.2473780585666772]
視覚的特徴ピラミッドは、目標検出タスクの有効性と効率性を証明している。
現在の手法では、層間特徴の相互作用を過度に強調し、層内特徴調整の重要な側面を無視する傾向にある。
論文 参考訳(メタデータ) (2023-12-18T14:30:41Z) - Centralized Feature Pyramid for Object Detection [53.501796194901964]
視覚的特徴ピラミッドは、広範囲のアプリケーションにおいて、有効性と効率の両方において、その優位性を示している。
本稿では,オブジェクト検出のためのOLO特徴ピラミッドを提案する。
論文 参考訳(メタデータ) (2022-10-05T08:32:54Z) - DenseGAP: Graph-Structured Dense Correspondence Learning with Anchor
Points [15.953570826460869]
2つの画像間の密接な対応を確立することは、基本的なコンピュータビジョンの問題である。
我々は、アンカーポイントに条件付きグラフ構造化ニューラルネットワークを用いたDense対応学習のための新しいソリューションであるDenseGAPを紹介する。
提案手法は,ほとんどのベンチマークにおいて対応学習の最先端化を図っている。
論文 参考訳(メタデータ) (2021-12-13T18:59:30Z) - Video Salient Object Detection via Adaptive Local-Global Refinement [7.723369608197167]
ビデオ・サリエント・オブジェクト検出(VSOD)は多くの視覚アプリケーションにおいて重要な課題である。
vsodのための適応型局所的グローバルリファインメントフレームワークを提案する。
重み付け手法は特徴相関を更に活用し,ネットワークにより識別的な特徴表現を学習させることができることを示す。
論文 参考訳(メタデータ) (2021-04-29T14:14:11Z) - Unveiling the Potential of Structure-Preserving for Weakly Supervised
Object Localization [71.79436685992128]
本稿では,WSOLの畳み込み機能に組み込まれた構造情報を完全に活用するための2段階構造保存アクティベーション(SPA)を提案する。
第1段階では、分類ネットワークによって引き起こされる構造ミス問題を軽減するために制限アクティベーションモジュール(ram)が設計されている。
第2段階では, 自己相関マップ生成(SCG)モジュールと呼ばれるプロセス後アプローチを提案し, 構造保存ローカライゼーションマップを得る。
論文 参考訳(メタデータ) (2021-03-08T03:04:14Z) - Learning to Predict Context-adaptive Convolution for Semantic
Segmentation [66.27139797427147]
長距離コンテキスト情報は、高性能なセマンティックセグメンテーションを実現するために不可欠である。
空間的に変化する特徴重み付けベクトルを予測するためのコンテキスト適応畳み込みネットワーク(CaC-Net)を提案する。
当社のCaC-Netは,3つの公開データセット上でのセグメンテーション性能に優れています。
論文 参考訳(メタデータ) (2020-04-17T13:09:17Z) - Global Context-Aware Progressive Aggregation Network for Salient Object
Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。
提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-02T04:26:10Z) - Dense Residual Network: Enhancing Global Dense Feature Flow for
Character Recognition [75.4027660840568]
本稿では,すべての畳み込み層から階層的特徴をフルに活用することにより,局所的・大域的特徴フローを改善する方法について検討する。
技術的には、テキスト認識のための効率的で効果的なCNNフレームワークであるFDRN(Fast Dense Residual Network)を提案する。
論文 参考訳(メタデータ) (2020-01-23T06:55:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。