論文の概要: Analyzing the Dependency of ConvNets on Spatial Information
- arxiv url: http://arxiv.org/abs/2002.01827v1
- Date: Wed, 5 Feb 2020 15:22:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 21:36:55.927866
- Title: Analyzing the Dependency of ConvNets on Spatial Information
- Title(参考訳): ConvNetの空間情報依存性の分析
- Authors: Yue Fan, Yongqin Xian, Max Maria Losch, Bernt Schiele
- Abstract要約: 本稿では,空間シャッフルとGAP+FCを用いて,学習段階とテスト段階の両方で空間情報を破壊する手法を提案する。
空間情報は、後続の層から小さな性能低下で削除できることを観察する。
- 参考スコア(独自算出の注目度): 81.93266969255711
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Intuitively, image classification should profit from using spatial
information. Recent work, however, suggests that this might be overrated in
standard CNNs. In this paper, we are pushing the envelope and aim to further
investigate the reliance on spatial information. We propose spatial shuffling
and GAP+FC to destroy spatial information during both training and testing
phases. Interestingly, we observe that spatial information can be deleted from
later layers with small performance drops, which indicates spatial information
at later layers is not necessary for good performance. For example, test
accuracy of VGG-16 only drops by 0.03% and 2.66% with spatial information
completely removed from the last 30% and 53% layers on CIFAR100, respectively.
Evaluation on several object recognition datasets (CIFAR100, Small-ImageNet,
ImageNet) with a wide range of CNN architectures (VGG16, ResNet50, ResNet152)
shows an overall consistent pattern.
- Abstract(参考訳): 直感的には、画像分類は空間情報を用いて利益を得るべきである。
しかし最近の研究は、これが標準のCNNで過大評価されていることを示唆している。
本稿では,封筒を押下し,空間情報への依存度を高めることを目的とする。
本稿では,空間シャッフルとgap+fcを提案し,トレーニングとテストの両面で空間情報を破壊する。
興味深いことに、少ない性能低下で後層から空間情報を削除することは可能であり、後層の空間情報は良好な性能のために必要ではない。
例えば、VGG-16のテスト精度は0.03%と2.66%しか低下せず、それぞれCIFAR100の最後の30%と53%の層から空間情報が完全に除去されている。
広範囲なCNNアーキテクチャ(VGG16、ResNet50、ResNet152)を持つ複数のオブジェクト認識データセット(CIFAR100、Small-ImageNet、ImageNet)の評価は、全体的な一貫したパターンを示している。
関連論文リスト
- Revealing the Utilized Rank of Subspaces of Learning in Neural Networks [3.4133351364625275]
ニューラルネットワークの学習重量が、利用可能な空間をどのように活用するかを研究する。
ほとんどの学習された重みはフルランクのように見えるため、低ランクの分解には耐えられない。
データと重みが相互作用する部分空間に重みを投影する単純なデータ駆動変換を提案する。
論文 参考訳(メタデータ) (2024-07-05T18:14:39Z) - Getting it Right: Improving Spatial Consistency in Text-to-Image Models [103.52640413616436]
現在のテキスト・トゥ・イメージ(T2I)モデルにおける重要な欠点の1つは、テキスト・プロンプトで指定された空間的関係を忠実に追従するイメージを一貫して生成できないことである。
4つの広く使用されている視覚データセットから600万の画像を再キャプチャすることで、空間的に焦点を絞った最初の大規模データセットであるSPRIGHTを作成します。
対象物を多数含む画像のトレーニングは,500枚の画像の微調整により,T2I-CompBenchの空間スコア0.2133の最先端結果を含む空間的整合性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-04-01T15:55:25Z) - Reducing Effects of Swath Gaps on Unsupervised Machine Learning Models
for NASA MODIS Instruments [0.6157382820537718]
NASAのTerraとNASAのAqua衛星は、データのない領域であるスワストギャップを含む画像を撮影する。
注釈付きデータを監視として使用することで、モデルはフォーカス領域とスワストギャップの区別を学ぶことができる。
本稿では,CNNが関心領域に集中できるように,スワストギャップの存在を著しく除去する拡張手法を提案する。
論文 参考訳(メタデータ) (2021-06-13T23:50:05Z) - Wise-SrNet: A Novel Architecture for Enhancing Image Classification by
Learning Spatial Resolution of Feature Maps [0.5892638927736115]
畳み込みニューラルネットワークの進歩による大きな課題の1つは、抽出した特徴マップを最終分類層に接続する方法である。
本稿では,GAP層をWise-SrNetと呼ばれる新しいアーキテクチャに置き換えることで,この問題に対処する。
奥行きの畳み込みのアイデアにインスパイアされ、計算コストを増大させることなく空間分解能を処理するように設計されている。
論文 参考訳(メタデータ) (2021-04-26T00:37:11Z) - Real-time Semantic Segmentation via Spatial-detail Guided Context
Propagation [49.70144583431999]
本研究では,リアルタイムセマンティックセグメンテーションを実現するための空間詳細ガイド付きコンテキスト伝搬ネットワーク(SGCPNet)を提案する。
浅い層の空間的詳細を利用して低解像度のグローバルコンテキストの伝播を誘導し、失われた空間情報を効果的に再構成することができる。
69.5%のmIoUセグメンテーション精度を実現し、GeForce GTX 1080 Tiの768x1536イメージ上で178.5 FPSに達する。
論文 参考訳(メタデータ) (2020-05-22T07:07:26Z) - Spatially Attentive Output Layer for Image Classification [19.61612493183965]
画像分類のためのほとんどの畳み込みニューラルネットワーク(CNN)は、グローバル平均プーリング(GAP)と、出力ロジットのための完全連結(FC)層を使用する。
本稿では,既存の畳み込み特徴マップ上に新しい空間出力層を提案し,位置固有出力情報を明示的に活用する。
論文 参考訳(メタデータ) (2020-04-16T10:11:38Z) - Improved Residual Networks for Image and Video Recognition [98.10703825716142]
ResNets(Residual Networks)は、CNN(Convolutional Neural Network)アーキテクチャの強力なタイプである。
ベースライン上での精度と学習収束性を一貫した改善を示す。
提案手法では,高度に深いネットワークをトレーニングできるが,ベースラインは厳密な最適化問題を示す。
論文 参考訳(メタデータ) (2020-04-10T11:09:50Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z) - R-FCN: Object Detection via Region-based Fully Convolutional Networks [87.62557357527861]
我々は,高精度かつ効率的な物体検出のための領域ベースの完全畳み込みネットワークを提案する。
我々の結果は、Faster R-CNNよりも2.5-20倍高速で、1画像あたり170msのテストタイムで達成される。
論文 参考訳(メタデータ) (2016-05-20T15:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。