論文の概要: On Translation Invariance in CNNs: Convolutional Layers can Exploit
Absolute Spatial Location
- arxiv url: http://arxiv.org/abs/2003.07064v2
- Date: Sat, 30 May 2020 14:59:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 03:04:22.454568
- Title: On Translation Invariance in CNNs: Convolutional Layers can Exploit
Absolute Spatial Location
- Title(参考訳): CNNにおける翻訳不変性について:畳み込み層は絶対的な空間的位置を爆発させることができる
- Authors: Osman Semih Kayhan and Jan C. van Gemert
- Abstract要約: CNNは、特定の絶対位置にのみ応答するフィルタを学習することで、絶対空間位置を活用できることを示す。
現代のCNNフィルタは大きな受容場を持つため、これらの境界効果は画像境界から遠く離れている。
- 参考スコア(独自算出の注目度): 18.932504899552494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we challenge the common assumption that convolutional layers in
modern CNNs are translation invariant. We show that CNNs can and will exploit
the absolute spatial location by learning filters that respond exclusively to
particular absolute locations by exploiting image boundary effects. Because
modern CNNs filters have a huge receptive field, these boundary effects operate
even far from the image boundary, allowing the network to exploit absolute
spatial location all over the image. We give a simple solution to remove
spatial location encoding which improves translation invariance and thus gives
a stronger visual inductive bias which particularly benefits small data sets.
We broadly demonstrate these benefits on several architectures and various
applications such as image classification, patch matching, and two video
classification datasets.
- Abstract(参考訳): 本稿では,現代CNNにおける畳み込み層が翻訳不変である,という一般的な仮定に挑戦する。
画像境界効果を利用して、特定の絶対位置にのみ応答するフィルタを学習することで、CNNが絶対空間位置を活用できることを示す。
現代のCNNフィルタは受容界が大きいため、これらの境界効果は画像境界から遠く離れても動作し、ネットワークは画像全体にわたって絶対的な空間的位置を利用することができる。
空間的位置符号化の簡易な解法により、翻訳不変性が向上し、特に小さなデータセットに有利なより強力な視覚的帰納バイアスを与える。
画像分類やパッチマッチング,2つのビデオ分類データセットといった,いくつかのアーキテクチャやさまざまなアプリケーションにおいて,これらのメリットを広く示しています。
関連論文リスト
- TransGeo: Transformer Is All You Need for Cross-view Image
Geo-localization [81.70547404891099]
クロスビュー画像のジオローカライゼーションのためのCNNに基づく手法は,大域的相関をモデル化できない。
本稿では,これらの制約に対処するためのトランスジェオ (TransGeo) を提案する。
TransGeoは、都市と農村の両方のデータセットで最先端の結果を達成する。
論文 参考訳(メタデータ) (2022-03-31T21:19:41Z) - Interpretable Compositional Convolutional Neural Networks [20.726080433723922]
本稿では,従来の畳み込みニューラルネットワーク(CNN)を解釈可能な合成CNNに変換する手法を提案する。
合成CNNでは、各フィルタは、明確な意味を持つ特定の合成対象部分または画像領域を一貫して表現することになっている。
我々の手法は様々な種類のCNNに適用できる。
論文 参考訳(メタデータ) (2021-07-09T15:01:24Z) - The Spatially-Correlative Loss for Various Image Translation Tasks [69.62228639870114]
シーン構造の一貫性を保つために、シンプルで効率的かつ効果的な新しい空間相関損失を提案します。
以前の方法は、ピクセルレベルのサイクル一貫性または特徴レベルのマッチング損失を使用してこれを試みます。
I2I翻訳の3つのモードすべてにおいて,ベースラインモデルに対して,単一モーダル,マルチモーダル,さらには単一イメージ翻訳において,明確な改善が見られた。
論文 参考訳(メタデータ) (2021-04-02T02:13:30Z) - The Mind's Eye: Visualizing Class-Agnostic Features of CNNs [92.39082696657874]
本稿では,特定のレイヤの最も情報性の高い特徴を表現した対応する画像を作成することにより,画像の集合を視覚的に解釈する手法を提案する。
本手法では, 生成ネットワークを必要とせず, 元のモデルに変更を加えることなく, デュアルオブジェクトのアクティベーションと距離損失を利用する。
論文 参考訳(メタデータ) (2021-01-29T07:46:39Z) - Position, Padding and Predictions: A Deeper Look at Position Information
in CNNs [30.583407443282365]
一般に使われているCNNでは、絶対位置情報の驚くほどの情報が符号化されていることを示す。
ゼロパディングはCNNに内部表現の位置情報を符号化させるが、パディングの欠如は位置符号化を妨げていることを示す。
これにより、CNNにおける位置情報の役割に関するより深い疑問がもたらされる。
論文 参考訳(メタデータ) (2021-01-28T23:40:32Z) - An Empirical Method to Quantify the Peripheral Performance Degradation
in Deep Networks [18.808132632482103]
畳み込みニューラルネットワーク(CNN)カーネルは、各畳み込み層に結合する。
より深いネットワークとストライドベースのダウンサンプリングを組み合わせることで、この領域の伝播は、画像の無視できない部分をカバーすることができる。
我々のデータセットは、高解像度の背景にオブジェクトを挿入することで構築され、画像境界に対してターゲットオブジェクトを特定の位置に配置するサブイメージを収穫することができる。
マスクR-CNNの動作を目標位置の選択にわたって探索することにより、画像境界付近、特に画像コーナーにおいて、パフォーマンス劣化の明確なパターンが明らかになる。
論文 参考訳(メタデータ) (2020-12-04T18:00:47Z) - What Does CNN Shift Invariance Look Like? A Visualization Study [87.79405274610681]
畳み込みニューラルネットワーク(CNN)による特徴抽出は、機械学習タスクの画像を表現する一般的な方法である。
我々は,一般的な市販CNNモデルから抽出した特徴量の変動を計測し,可視化することに注力する。
人気ネットワークから抽出された特徴はグローバルに不変ではなく,この分散の中にバイアスやアーティファクトが存在すると結論付けている。
論文 参考訳(メタデータ) (2020-11-09T01:16:30Z) - RetinotopicNet: An Iterative Attention Mechanism Using Local Descriptors
with Global Context [0.0]
畳み込みニューラルネットワーク(CNN)は近年のコンピュータビジョン研究における多くの進歩の原動力となった。
CNNはスケールと回転不変性に欠けており、自然画像において最も頻繁に遭遇する変換の2つである。
自然が人間の脳の問題をいかに解決したかを再現し、効率的な解法を開発する。
論文 参考訳(メタデータ) (2020-05-12T11:54:56Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z) - R-FCN: Object Detection via Region-based Fully Convolutional Networks [87.62557357527861]
我々は,高精度かつ効率的な物体検出のための領域ベースの完全畳み込みネットワークを提案する。
我々の結果は、Faster R-CNNよりも2.5-20倍高速で、1画像あたり170msのテストタイムで達成される。
論文 参考訳(メタデータ) (2016-05-20T15:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。