論文の概要: Understanding when spatial transformer networks do not support
invariance, and what to do about it
- arxiv url: http://arxiv.org/abs/2004.11678v5
- Date: Tue, 18 May 2021 09:14:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-10 03:52:24.458471
- Title: Understanding when spatial transformer networks do not support
invariance, and what to do about it
- Title(参考訳): 空間変圧器ネットワークが不変性をサポートしていない場合の理解とその対策
- Authors: Lukas Finnveden, Ylva Jansson and Tony Lindeberg
- Abstract要約: 空間トランスフォーマーネットワーク(STN)は、畳み込みニューラルネットワーク(CNN)が画像変換に不変性を学習できるように設計された。
我々はSTNが変換された画像の特徴マップと元の特徴マップを整列する能力を持っていないことを示す。
複雑な特徴を生かした代替STNアーキテクチャについて検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatial transformer networks (STNs) were designed to enable convolutional
neural networks (CNNs) to learn invariance to image transformations. STNs were
originally proposed to transform CNN feature maps as well as input images. This
enables the use of more complex features when predicting transformation
parameters. However, since STNs perform a purely spatial transformation, they
do not, in the general case, have the ability to align the feature maps of a
transformed image with those of its original. STNs are therefore unable to
support invariance when transforming CNN feature maps. We present a simple
proof for this and study the practical implications, showing that this
inability is coupled with decreased classification accuracy. We therefore
investigate alternative STN architectures that make use of complex features. We
find that while deeper localization networks are difficult to train,
localization networks that share parameters with the classification network
remain stable as they grow deeper, which allows for higher classification
accuracy on difficult datasets. Finally, we explore the interaction between
localization network complexity and iterative image alignment.
- Abstract(参考訳): 空間トランスフォーマーネットワーク(STN)は、畳み込みニューラルネットワーク(CNN)が画像変換に不変性を学習できるように設計された。
STNはもともとCNNの特徴マップと入力画像の変換のために提案されていた。
これにより、変換パラメータを予測する際に、より複雑な機能の使用が可能になる。
しかし、STNは純粋に空間変換を行うため、一般的な場合、変換された画像の特徴写像を元のものと整列する能力を持たない。
したがって、STNはCNN特徴写像を変換する際に不変性をサポートできない。
そこで本研究では,この問題に対する簡単な証明と実用的意義について検討し,分類精度の低下と組み合わせることを提案する。
そこで我々は,複雑な特徴を利用する代替STNアーキテクチャについて検討する。
また,より深い局所化ネットワークは訓練が難しいが,分類ネットワークとパラメータを共有するローカライズネットワークは,より深く成長するにつれて安定し,困難なデータセットの分類精度が向上することがわかった。
最後に,ローカライズネットワークの複雑さと反復画像アライメントの相互作用について検討する。
関連論文リスト
- Variable-size Symmetry-based Graph Fourier Transforms for image compression [65.7352685872625]
可変サイズのグラフフーリエ変換を符号化フレームワークに導入する。
提案アルゴリズムは,ノード間の特定の対称接続を追加することにより,グリッド上の対称グラフを生成する。
実験により、SBGFTは、明示的な多重変換選択に統合された一次変換よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-11-24T13:00:44Z) - Revisiting Data Augmentation for Rotational Invariance in Convolutional
Neural Networks [0.29127054707887967]
画像分類のためのCNNにおける回転不変性について検討する。
実験により、データ拡張だけで訓練されたネットワークは、通常の非回転の場合と同様に、回転した画像の分類がほぼ可能であることが示された。
論文 参考訳(メタデータ) (2023-10-12T15:53:24Z) - Entropy Transformer Networks: A Learning Approach via Tangent Bundle
Data Manifold [8.893886200299228]
本稿では,CNNアーキテクチャの設計における画像変換の高精度かつ高速なアプローチについて述べる。
データ多様体分布を補間する新しいエントロピーSTN(ESTN)を提案する。
挑戦的なベンチマークの実験は、提案されたESTNがコンピュータビジョンタスクの範囲で予測精度を向上させることを示している。
論文 参考訳(メタデータ) (2023-07-24T04:21:51Z) - B-cos Networks: Alignment is All We Need for Interpretability [136.27303006772294]
本稿では,深層ニューラルネットワーク(DNN)の学習における重み付けの促進による解釈可能性の向上に向けた新たな方向性を提案する。
B-コス変換は、完全なモデル計算を忠実に要約する単一の線形変換を誘導する。
VGGs、ResNets、InceptionNets、DenseNetsといった一般的なモデルに簡単に統合できることを示します。
論文 参考訳(メタデータ) (2022-05-20T16:03:29Z) - Revisiting Transformation Invariant Geometric Deep Learning: Are Initial
Representations All You Need? [80.86819657126041]
変換不変および距離保存初期表現は変換不変性を達成するのに十分であることを示す。
具体的には、多次元スケーリングを変更することで、変換不変かつ距離保存された初期点表現を実現する。
我々は、TinvNNが変換不変性を厳密に保証し、既存のニューラルネットワークと組み合わせられるほど汎用的で柔軟なことを証明した。
論文 参考訳(メタデータ) (2021-12-23T03:52:33Z) - Implicit Equivariance in Convolutional Networks [1.911678487931003]
IEN(Implicitly Equivariant Networks)は標準CNNモデルの異なる層で同変を誘導する。
IENは、高速な推論速度を提供しながら、最先端の回転同変追跡法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-11-28T14:44:17Z) - CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image
Segmentation [95.51455777713092]
畳み込みニューラルネットワーク(CNN)は、現代の3D医療画像セグメンテーションのデファクトスタンダードとなっている。
本稿では,bf畳み込みニューラルネットワークとbfトランスbf(cotr)を効率良く橋渡しし,正確な3次元医用画像分割を実現する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T13:34:22Z) - Rotation-Invariant Gait Identification with Quaternion Convolutional
Neural Networks [7.638280076041963]
本稿では,ネットワークアーキテクチャであるQuaternion CNNを紹介する。
我々は,このネットワークが,マルチユーザ回転不変歩行分類設定において,従来のCNNよりも著しく優れていることを実証的に示す。
論文 参考訳(メタデータ) (2020-08-04T23:22:12Z) - Volumetric Transformer Networks [88.85542905676712]
学習可能なモジュールである容積変換器ネットワーク(VTN)を導入する。
VTNは、中間CNNの空間的およびチャネル的特徴を再設定するために、チャネル回りの歪み場を予測する。
実験の結果,VTNは特徴量の表現力を一貫して向上し,細粒度画像認識とインスタンスレベルの画像検索におけるネットワークの精度が向上することがわかった。
論文 参考訳(メタデータ) (2020-07-18T14:00:12Z) - Computational optimization of convolutional neural networks using
separated filters architecture [69.73393478582027]
我々は、計算複雑性を低減し、ニューラルネットワーク処理を高速化する畳み込みニューラルネットワーク変換を考える。
畳み込みニューラルネットワーク(CNN)の使用は、計算的に要求が多すぎるにもかかわらず、画像認識の標準的なアプローチである。
論文 参考訳(メタデータ) (2020-02-18T17:42:13Z) - The problems with using STNs to align CNN feature maps [0.0]
空間変換器ネットワーク(STN)は、変換された画像とそのオリジナルの特徴マップを整列する能力を持たないと我々は主張する。
我々は、分類とローカライゼーションネットワークの間でパラメータを共有することによって、より深い層におけるより複雑な特徴を活用することを提唱する。
論文 参考訳(メタデータ) (2020-01-14T12:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。