論文の概要: Wise-SrNet: A Novel Architecture for Enhancing Image Classification by
Learning Spatial Resolution of Feature Maps
- arxiv url: http://arxiv.org/abs/2104.12294v2
- Date: Tue, 3 Oct 2023 21:18:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 23:02:47.636055
- Title: Wise-SrNet: A Novel Architecture for Enhancing Image Classification by
Learning Spatial Resolution of Feature Maps
- Title(参考訳): wise-srnet: 特徴地図の空間分解能学習による画像分類強化のための新しいアーキテクチャ
- Authors: Mohammad Rahimzadeh, AmirAli Askari, Soroush Parvin, Elnaz Safi,
Mohammad Reza Mohammadi
- Abstract要約: 畳み込みニューラルネットワークの進歩による大きな課題の1つは、抽出した特徴マップを最終分類層に接続する方法である。
本稿では,GAP層をWise-SrNetと呼ばれる新しいアーキテクチャに置き換えることで,この問題に対処する。
奥行きの畳み込みのアイデアにインスパイアされ、計算コストを増大させることなく空間分解能を処理するように設計されている。
- 参考スコア(独自算出の注目度): 0.5892638927736115
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: One of the main challenges since the advancement of convolutional neural
networks is how to connect the extracted feature map to the final
classification layer. VGG models used two sets of fully connected layers for
the classification part of their architectures, which significantly increased
the number of models' weights. ResNet and the next deep convolutional models
used the Global Average Pooling (GAP) layer to compress the feature map and
feed it to the classification layer. Although using the GAP layer reduces the
computational cost, but also causes losing spatial resolution of the feature
map, which results in decreasing learning efficiency. In this paper, we aim to
tackle this problem by replacing the GAP layer with a new architecture called
Wise-SrNet. It is inspired by the depthwise convolutional idea and is designed
for processing spatial resolution while not increasing computational cost. We
have evaluated our method using three different datasets: Intel Image
Classification Challenge, MIT Indoors Scenes, and a part of the ImageNet
dataset. We investigated the implementation of our architecture on several
models of the Inception, ResNet, and DenseNet families. Applying our
architecture has revealed a significant effect on increasing convergence speed
and accuracy. Our Experiments on images with 224*224 resolution increased the
Top-1 accuracy between 2% to 8% on different datasets and models. Running our
models on 512*512 resolution images of the MIT Indoors Scenes dataset showed a
notable result of improving the Top-1 accuracy within 3% to 26%. We will also
demonstrate the GAP layer's disadvantage when the input images are large and
the number of classes is not few. In this circumstance, our proposed
architecture can do a great help in enhancing classification results. The code
is shared at https://github.com/mr7495/image-classification-spatial.
- Abstract(参考訳): 畳み込みニューラルネットワークの進歩以降の主な課題の1つは、抽出された特徴マップを最終分類層に接続する方法である。
VGGモデルはアーキテクチャの分類に2つの完全に接続された層を使用し、モデルの重みを著しく増やした。
ResNetと次の深層畳み込みモデルでは、Global Average Pooling(GAP)レイヤを使用してフィーチャーマップを圧縮し、それを分類層に供給する。
GAPレイヤを使用すると計算コストが削減されるが、特徴マップの空間分解能が低下し、学習効率が低下する。
本稿では,GAP層をWise-SrNetと呼ばれる新しいアーキテクチャに置き換えることで,この問題に対処する。
深遠な畳み込みのアイデアにインスパイアされ、計算コストを増大させることなく空間分解能を処理するように設計されている。
我々は、Intel Image Classification Challenge、MIT Indoors Scenes、ImageNetデータセットの一部の3つの異なるデータセットを用いて手法を評価した。
我々は,インセプション,ResNet,DenseNetファミリーの各モデルにおけるアーキテクチャの実装について検討した。
アーキテクチャを適用することで、収束速度と精度が向上することが明らかになりました。
224*224解像度の画像に対する実験は、データセットやモデルでTop-1の精度を2%から8%向上させた。
MIT Indoors Scenesデータセットの512*512解像度画像上でモデルを実行すると、Top-1の精度が3%から26%向上した。
また,入力画像が大きく,クラス数が少ない場合にGAP層の欠点を示す。
この状況下では,提案アーキテクチャは分類結果の強化に大いに役立てることができる。
コードはhttps://github.com/mr7495/image-classification-spatialで共有される。
関連論文リスト
- Parameter-Inverted Image Pyramid Networks [49.35689698870247]
Inverted Image Pyramid Networks (PIIP) と呼ばれる新しいネットワークアーキテクチャを提案する。
私たちの中核となる考え方は、パラメータサイズの異なるモデルを使用して、画像ピラミッドの解像度の異なるレベルを処理することです。
PIIPは、オブジェクト検出、セグメンテーション、画像分類などのタスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-06T17:59:10Z) - Additional Look into GAN-based Augmentation for Deep Learning COVID-19
Image Classification [57.1795052451257]
我々は,GANに基づく拡張性能のデータセットサイズ依存性について,小サンプルに着目して検討した。
両方のセットでStyleGAN2-ADAをトレーニングし、生成した画像の品質を検証した後、マルチクラス分類問題における拡張アプローチの1つとしてトレーニングされたGANを使用する。
GANベースの拡張アプローチは、中規模および大規模データセットでは古典的な拡張に匹敵するが、より小さなデータセットでは不十分である。
論文 参考訳(メタデータ) (2024-01-26T08:28:13Z) - LR-Net: A Block-based Convolutional Neural Network for Low-Resolution
Image Classification [0.0]
ノイズや低解像度の画像から低レベル特徴と大域特徴の両方を学習するためのブロックで構成された,新しい画像分類アーキテクチャを開発した。
ブロックの設計は,性能向上とパラメータサイズ削減のために,Residual ConnectionとInceptionモジュールの影響を強く受けていた。
我々は、提示されたアーキテクチャが既存の最先端畳み込みニューラルネットワークよりも高速で正確であることを示す詳細なテストを実施した。
論文 参考訳(メタデータ) (2022-07-19T20:01:11Z) - Deep Learning Based Automated COVID-19 Classification from Computed
Tomography Images [0.0]
本稿では,画像分類のための畳み込みニューラルネットワーク(CNN)モデルを提案する。
本研究では,2次元CNNモデルを用いて2次元CTスキャン画像のスライスを簡易に分類する手法を提案する。
アーキテクチャの単純さにもかかわらず、提案モデルでは、同じ画像のデータセット上で、最先端技術を上回る定量的結果が得られた。
論文 参考訳(メタデータ) (2021-11-22T13:35:10Z) - Convolutional Neural Networks from Image Markers [62.997667081978825]
特徴 画像マーカーからの学習(FLIM)は、ごく少数の画像でユーザーが描画したストロークから、バックプロパゲーションのない畳み込みフィルタを推定するために最近提案されました。
本稿では、フルコネクテッド層に対してFLIMを拡張し、異なる画像分類問題について実証する。
その結果、FLIMベースの畳み込みニューラルネットワークは、バックプロパゲーションによってゼロから訓練された同じアーキテクチャを上回ります。
論文 参考訳(メタデータ) (2020-12-15T22:58:23Z) - DenserNet: Weakly Supervised Visual Localization Using Multi-scale
Feature Aggregation [7.2531609092488445]
画像表現の異なる意味レベルで特徴マップを集約する畳み込みニューラルネットワークアーキテクチャを開発する。
第二に、我々のモデルは、正および負のGPSタグ付き画像対以外の画素レベルのアノテーションなしで、エンドツーエンドで訓練されている。
第3に、アーキテクチャが計算中に特徴やパラメータを共有しているため、計算効率がよい。
論文 参考訳(メタデータ) (2020-12-04T02:16:47Z) - KiU-Net: Overcomplete Convolutional Architectures for Biomedical Image
and Volumetric Segmentation [71.79090083883403]
トラディショナル・エンコーダ・デコーダに基づく手法は, より小さな構造を検出でき, 境界領域を正確に分割できない。
本稿では,(1)入力の細部と正確なエッジを捉えることを学ぶ完全畳み込みネットワークKite-Netと,(2)高レベルの特徴を学習するU-Netの2つの枝を持つKiU-Netを提案する。
提案手法は,より少ないパラメータとより高速な収束の利点により,最近のすべての手法と比較して性能が向上する。
論文 参考訳(メタデータ) (2020-10-04T19:23:33Z) - Multi-scale Attention U-Net (MsAUNet): A Modified U-Net Architecture for
Scene Segmentation [1.713291434132985]
画像からコンテキスト情報を用いたシーンセグメンテーションのためのマルチスケールアテンションネットワークを提案する。
このネットワークは、局所的な特徴をグローバルな特徴にマップし、精度を向上し、識別画像領域を強調する。
我々はPascalVOC2012とADE20kという2つの標準データセットでモデルを評価した。
論文 参考訳(メタデータ) (2020-09-15T08:03:41Z) - Road Segmentation for Remote Sensing Images using Adversarial Spatial
Pyramid Networks [28.32775611169636]
合成画像生成と道路分割に構造化領域適応を適用した新しいモデルを提案する。
マルチレベルの特徴マップから学び、特徴のセマンティクスを改善するために、新しいスケールワイズアーキテクチャが導入された。
我々のモデルは、14.89Mパラメータと86.78B FLOPを持つマサチューセッツのデータセット上で、最先端の78.86 IOUを達成し、4倍少ないFLOPを持つが、より高精度(+3.47% IOU)である。
論文 参考訳(メタデータ) (2020-08-10T11:00:19Z) - When Residual Learning Meets Dense Aggregation: Rethinking the
Aggregation of Deep Neural Networks [57.0502745301132]
我々は,グローバルな残差学習と局所的なマイクロセンスアグリゲーションを備えた新しいアーキテクチャであるMicro-Dense Netsを提案する。
我々のマイクロセンスブロックはニューラルアーキテクチャ検索に基づくモデルと統合して性能を向上させることができる。
論文 参考訳(メタデータ) (2020-04-19T08:34:52Z) - Improved Residual Networks for Image and Video Recognition [98.10703825716142]
ResNets(Residual Networks)は、CNN(Convolutional Neural Network)アーキテクチャの強力なタイプである。
ベースライン上での精度と学習収束性を一貫した改善を示す。
提案手法では,高度に深いネットワークをトレーニングできるが,ベースラインは厳密な最適化問題を示す。
論文 参考訳(メタデータ) (2020-04-10T11:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。