論文の概要: Global Pooling, More than Meets the Eye: Position Information is Encoded
Channel-Wise in CNNs
- arxiv url: http://arxiv.org/abs/2108.07884v1
- Date: Tue, 17 Aug 2021 21:27:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-19 14:44:00.155065
- Title: Global Pooling, More than Meets the Eye: Position Information is Encoded
Channel-Wise in CNNs
- Title(参考訳): グローバルプーリング:cnnでは位置情報がチャネルごとにエンコードされる
- Authors: Md Amirul Islam, Matthew Kowal, Sen Jia, Konstantinos G. Derpanis and
Neil D. B. Bruce
- Abstract要約: 位置情報はチャネル次元の順序に基づいて符号化されるが、意味情報はそうではない。
2つのアプリケーションに適用することで,これらの発見の現実的な影響を示す。
- 参考スコア(独自算出の注目度): 32.81128493853064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we challenge the common assumption that collapsing the spatial
dimensions of a 3D (spatial-channel) tensor in a convolutional neural network
(CNN) into a vector via global pooling removes all spatial information.
Specifically, we demonstrate that positional information is encoded based on
the ordering of the channel dimensions, while semantic information is largely
not. Following this demonstration, we show the real world impact of these
findings by applying them to two applications. First, we propose a simple yet
effective data augmentation strategy and loss function which improves the
translation invariance of a CNN's output. Second, we propose a method to
efficiently determine which channels in the latent representation are
responsible for (i) encoding overall position information or (ii)
region-specific positions. We first show that semantic segmentation has a
significant reliance on the overall position channels to make predictions. We
then show for the first time that it is possible to perform a `region-specific'
attack, and degrade a network's performance in a particular part of the input.
We believe our findings and demonstrated applications will benefit research
areas concerned with understanding the characteristics of CNNs.
- Abstract(参考訳): 本稿では,畳み込みニューラルネットワーク(CNN)における3次元(空間チャネル)テンソルの空間次元が,大域的なプーリングによってベクトルに崩壊するという一般的な仮定に挑戦する。
具体的には, 位置情報はチャネル次元の順序に基づいてエンコードされるが, 意味情報は概ねそうではないことを示す。
この実演に続いて,2つの応用に適用することで,これらの知見の現実的な影響を示す。
まず,cnn出力の変換不変性を改善する簡易かつ効果的なデータ拡張戦略と損失関数を提案する。
第2に,潜在表現のどのチャネルが (i) 全体の位置情報をエンコードしているか,あるいは (ii) 領域固有の位置を効率的に決定する手法を提案する。
まず、セマンティックセグメンテーションは、予測を行うための全体の位置チャネルに大きく依存していることを示す。
次に、最初に‘リージョン固有の’攻撃を実行でき、入力の特定の部分においてネットワークの性能を低下させることができることを示す。
我々は,CNNの特徴を理解する研究分野に,本研究の成果と応用を期待する。
関連論文リスト
- DAS: A Deformable Attention to Capture Salient Information in CNNs [2.321323878201932]
自己注意は、グローバル情報へのアクセスを改善するが、計算オーバーヘッドを増大させる。
本稿では,DASと呼ばれる高速でシンプルな完全畳み込み手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T18:49:58Z) - What Can Be Learnt With Wide Convolutional Neural Networks? [69.55323565255631]
カーネルシステムにおける無限大の深層CNNについて検討する。
我々は,深部CNNが対象関数の空間スケールに適応していることを証明する。
我々は、別の深部CNNの出力に基づいて訓練された深部CNNの一般化誤差を計算して結論付ける。
論文 参考訳(メタデータ) (2022-08-01T17:19:32Z) - SAR Despeckling Using Overcomplete Convolutional Networks [53.99620005035804]
スペックルはSAR画像を劣化させるため、リモートセンシングにおいて重要な問題である。
近年の研究では、畳み込みニューラルネットワーク(CNN)が古典的解法よりも優れていることが示されている。
本研究は、受容場を制限することで低レベルの特徴を学習することに集中するために、過剰なCNNアーキテクチャを用いる。
本稿では,合成および実SAR画像の非特定化手法と比較して,提案手法により非特定化性能が向上することを示す。
論文 参考訳(メタデータ) (2022-05-31T15:55:37Z) - Residual Moment Loss for Medical Image Segmentation [56.72261489147506]
位置情報は,対象物体の多様体構造を捉えた深層学習モデルに有効であることが証明された。
既存のほとんどの手法は、ネットワークが学習するために、位置情報を暗黙的にエンコードする。
セグメント化対象の位置情報を明示的に埋め込むために,新しい損失関数,すなわち残差モーメント(RM)損失を提案する。
論文 参考訳(メタデータ) (2021-06-27T09:31:49Z) - Position, Padding and Predictions: A Deeper Look at Position Information
in CNNs [30.583407443282365]
一般に使われているCNNでは、絶対位置情報の驚くほどの情報が符号化されていることを示す。
ゼロパディングはCNNに内部表現の位置情報を符号化させるが、パディングの欠如は位置符号化を妨げていることを示す。
これにより、CNNにおける位置情報の役割に関するより深い疑問がもたらされる。
論文 参考訳(メタデータ) (2021-01-28T23:40:32Z) - Weakly-Supervised Action Localization and Action Recognition using
Global-Local Attention of 3D CNN [4.924442315857227]
3D Convolutional Neural Network (3D CNN)は、ビデオシーケンスなどの3Dデータの空間的および時間的情報をキャプチャします。
3D CNNの視覚的説明と分類を改善するための2つのアプローチを提案します。
論文 参考訳(メタデータ) (2020-12-17T12:29:16Z) - Channel-wise Knowledge Distillation for Dense Prediction [73.99057249472735]
本稿では,学生ネットワークと教師ネットワークのチャンネルワイズ機能について提案する。
様々なネットワーク構造を持つ3つのベンチマークにおいて、一貫して優れた性能を実現している。
論文 参考訳(メタデータ) (2020-11-26T12:00:38Z) - Self-supervised Video Representation Learning by Uncovering
Spatio-temporal Statistics [74.6968179473212]
本稿では,自己指導型学習問題に対処する新しい前提課題を提案する。
最大運動の空間的位置や支配的な方向など,分割的・時間的統計的な要約を連続して計算する。
ビデオフレームを入力として与えられた統計的要約を得るために、ニューラルネットワークを構築して訓練する。
論文 参考訳(メタデータ) (2020-08-31T08:31:56Z) - Localized convolutional neural networks for geospatial wind forecasting [0.0]
畳み込みニューラルネットワーク(CNN)は多くの空間データに関して正の特性を有する。
本研究では,CNNがグローバルな特徴に加えて,局所的な特徴を学習することのできる局所畳み込みニューラルネットワークを提案する。
どのような畳み込みレイヤにも追加可能で、簡単にエンドツーエンドのトレーニングが可能で、最小限の複雑さを導入でき、CNNは必要な範囲でそのメリットの大部分を維持できる。
論文 参考訳(メタデータ) (2020-05-12T17:14:49Z) - Learning to Predict Context-adaptive Convolution for Semantic
Segmentation [66.27139797427147]
長距離コンテキスト情報は、高性能なセマンティックセグメンテーションを実現するために不可欠である。
空間的に変化する特徴重み付けベクトルを予測するためのコンテキスト適応畳み込みネットワーク(CaC-Net)を提案する。
当社のCaC-Netは,3つの公開データセット上でのセグメンテーション性能に優れています。
論文 参考訳(メタデータ) (2020-04-17T13:09:17Z) - How Much Position Information Do Convolutional Neural Networks Encode? [27.604154992915863]
完全に接続されたネットワークとは対照的に、畳み込みニューラルネットワーク(CNN)は、局所フィルタに関連する重みを有限の空間範囲で学習することで効率を向上する。
本稿では,この仮説を用いて,ニューラルネットワークで符号化された絶対位置情報の驚くほどの度合いを明らかにする。
論文 参考訳(メタデータ) (2020-01-22T19:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。