論文の概要: G-RCN: Optimizing the Gap between Classification and Localization Tasks
for Object Detection
- arxiv url: http://arxiv.org/abs/2012.03677v1
- Date: Sat, 14 Nov 2020 04:14:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 13:46:57.408437
- Title: G-RCN: Optimizing the Gap between Classification and Localization Tasks
for Object Detection
- Title(参考訳): G-RCN:オブジェクト検出のための分類と局所化タスク間のギャップの最適化
- Authors: Yufan Luo, Li Xiao
- Abstract要約: 分類タスクと局所化タスクの高レベルな特徴の共有は準最適であることを示す。
我々はギャップ最適化領域ベース畳み込みネットワーク(G-RCN)というパラダイムを提案する。
新しい手法は、VGG16、ResNet50、ResNet101のバックボーンを持つFaster R-CNNに適用される。
- 参考スコア(独自算出の注目度): 3.620272428985414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-task learning is widely used in computer vision. Currently, object
detection models utilize shared feature map to complete classification and
localization tasks simultaneously. By comparing the performance between the
original Faster R-CNN and that with partially separated feature maps, we show
that: (1) Sharing high-level features for the classification and localization
tasks is sub-optimal; (2) Large stride is beneficial for classification but
harmful for localization; (3) Global context information could improve the
performance of classification. Based on these findings, we proposed a paradigm
called Gap-optimized region based convolutional network (G-RCN), which aims to
separating these two tasks and optimizing the gap between them. The paradigm
was firstly applied to correct the current ResNet protocol by simply reducing
the stride and moving the Conv5 block from the head to the feature extraction
network, which brings 3.6 improvement of AP70 on the PASCAL VOC dataset and 1.5
improvement of AP on the COCO dataset for ResNet50. Next, the new method is
applied on the Faster R-CNN with backbone of VGG16,ResNet50 and ResNet101,
which brings above 2.0 improvement of AP70 on the PASCAL VOC dataset and above
1.9 improvement of AP on the COCO dataset. Noticeably, the implementation of
G-RCN only involves a few structural modifications, with no extra module added.
- Abstract(参考訳): マルチタスク学習はコンピュータビジョンで広く使われている。
現在、オブジェクト検出モデルは共有特徴写像を用いて分類と局所化を同時に行う。
元のFaster R-CNNと部分的に分離された特徴マップの性能を比較することで,(1)分類と局所化タスクの高レベル特徴の共有は準最適,(2)大規模ストライドは分類には有益であるが,局所化には有益,(3)グローバルコンテキスト情報は分類のパフォーマンスを向上させることができることを示した。
そこで本研究では,この2つのタスクを分離し,それらの間隙を最適化することを目的とした,ギャップ最適化領域型畳み込みネットワーク(g-rcn)というパラダイムを提案する。
このパラダイムは、まず現在のResNetプロトコルの修正に使われ、ストライドを削減し、Conv5ブロックをヘッドから特徴抽出ネットワークに移動することで、PASCAL VOCデータセットでAP70が3.6改善、ResNet50のCOCOデータセットでAPが1.5改善された。
次に、新しい手法がVGG16、ResNet50、ResNet101のバックボーンを持つFaster R-CNNに適用され、PASCAL VOCデータセットでAP70が2.0改善され、COCOデータセットでAPが1.9改善された。
明らかなことに、g-rcnの実装は、追加のモジュールを追加することなく、いくつかの構造的な変更しか含まない。
関連論文リスト
- ELGC-Net: Efficient Local-Global Context Aggregation for Remote Sensing Change Detection [65.59969454655996]
本稿では,変化領域を正確に推定するために,リッチな文脈情報を利用する効率的な変化検出フレームワークELGC-Netを提案する。
提案するELGC-Netは、リモートセンシング変更検出ベンチマークにおいて、最先端の性能を新たに設定する。
また,ELGC-Net-LWも導入した。
論文 参考訳(メタデータ) (2024-03-26T17:46:25Z) - NOAH: Learning Pairwise Object Category Attentions for Image
Classification [26.077836657775403]
Non-glObal Attentive Head (NOAH)は、ペアワイドオブジェクトカテゴリーアテンション (POCA) と呼ばれる新しい点積アテンションである。
ドロップイン設計として、NOAHは様々な種類のDNNの既存のヘッドを置き換えるのに容易に使用できる。
論文 参考訳(メタデータ) (2024-02-04T07:19:40Z) - EGRC-Net: Embedding-induced Graph Refinement Clustering Network [66.44293190793294]
埋め込みによるグラフリファインメントクラスタリングネットワーク (EGRC-Net) という新しいグラフクラスタリングネットワークを提案する。
EGRC-Netは学習した埋め込みを利用して初期グラフを適応的に洗練し、クラスタリング性能を向上させる。
提案手法はいくつかの最先端手法より一貫して優れている。
論文 参考訳(メタデータ) (2022-11-19T09:08:43Z) - TC-Net: Triple Context Network for Automated Stroke Lesion Segmentation [0.5482532589225552]
本稿では,空間的コンテキスト情報を中心として,新たなネットワークである Triple Context Network (TC-Net) を提案する。
我々のネットワークはオープンデータセットATLASで評価され、最高スコアは0.594、ハウスドルフ距離は27.005mm、平均対称性表面距離は7.137mmである。
論文 参考訳(メタデータ) (2022-02-28T11:12:16Z) - CondenseNet V2: Sparse Feature Reactivation for Deep Networks [87.38447745642479]
高密度接続によるディープネットワークの機能再利用は、高い計算効率を達成する効果的な方法である。
スパース機能再活性化(SFR)と呼ばれる代替アプローチを提案し、再利用機能の有用性を積極的に高めることを目指しています。
提案手法は画像分類(ImageNet, CIFAR)とオブジェクト検出(MSCOCO)において,理論的効率と実用的速度の両面で有望な性能を達成できることを示す。
論文 参考訳(メタデータ) (2021-04-09T14:12:43Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Inception Convolution with Efficient Dilation Search [121.41030859447487]
拡散畳み込みは、効果的な受容場を制御し、オブジェクトの大規模な分散を処理するための標準的な畳み込みニューラルネットワークの重要な変異体である。
そこで我々は,異なる軸,チャネル,層間の独立な拡散を有する拡張畳み込みの新たな変異体,すなわち開始(拡張)畳み込みを提案する。
本稿では,データに複雑なインセプション・コンボリューションを適合させる実用的な手法を探索し,統計的最適化に基づく簡易かつ効果的な拡張探索アルゴリズム(EDO)を開発した。
論文 参考訳(メタデータ) (2020-12-25T14:58:35Z) - A Holistically-Guided Decoder for Deep Representation Learning with
Applications to Semantic Segmentation and Object Detection [74.88284082187462]
一般的な戦略の1つは、バックボーンネットワークに拡張畳み込みを採用し、高解像度のフィーチャーマップを抽出することです。
本稿では,高分解能なセマンティクスリッチな特徴マップを得るために紹介される,新たなホリスティック誘導デコーダを提案する。
論文 参考訳(メタデータ) (2020-12-18T10:51:49Z) - A novel Region of Interest Extraction Layer for Instance Segmentation [3.5493798890908104]
本稿では,既存のRoI抽出器の限界を克服する必要性を動機とする。
提案するレイヤ(Generic RoI Extractor - GRoIE)には,非ローカルなビルディングブロックとアテンション機構が導入され,パフォーマンスが向上する。
GRoIEは、オブジェクト検出とインスタンスセグメンテーションの両方のために、すべての2段階アーキテクチャとシームレスに統合できる。
論文 参考訳(メタデータ) (2020-04-28T17:07:32Z) - Neural Architecture Search on Acoustic Scene Classification [13.529070650030313]
我々はMobileNetV2にインスパイアされた軽量で高性能なベースラインネットワークを提案する。
提案するベースラインに基づいて構築された動的アーキテクチャ空間を探索する。
実験の結果,検索されたネットワークはASCタスクに適していることがわかった。
論文 参考訳(メタデータ) (2019-12-30T06:35:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。