論文の概要: Gaussian Mask Convolution for Convolutional Neural Networks
- arxiv url: http://arxiv.org/abs/2302.04544v1
- Date: Thu, 9 Feb 2023 10:17:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-10 16:10:53.257683
- Title: Gaussian Mask Convolution for Convolutional Neural Networks
- Title(参考訳): 畳み込みニューラルネットワークのためのガウスマスク畳み込み
- Authors: Qi Chen, Chao Li, Jia Ning, Kun He
- Abstract要約: スクエア畳み込みは畳み込みニューラルネットワークのデフォルトユニットである。
有効受容場(ERF)は、各ピクセルが出力に寄与する程度を示す。
本研究では,ガウスマスク畳み込みカーネル(GMConv)を提案する。
- 参考スコア(独自算出の注目度): 21.26955956953493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Square convolution is a default unit in convolutional neural networks as it
fits well on the tensor computation for convolution operation, which usually
has a fixed N x N receptive field (RF). However, what matters most to the
network is the effective receptive field (ERF), which indicates the extent each
pixel contributes to the output. ERF shows a Gaussian distribution and can not
be modeled by simply sampling pixels with offsets. To simulate ERF, we propose
a Gaussian Mask convolutional kernel (GMConv) in this work. Specifically,
GMConv utilizes the Gaussian function to generate a concentric symmetry mask
and put the mask over the kernel to refine the RF. Our GMConv can directly
replace the standard convolutions in existing CNNs and can be easily trained
end-to-end by standard backpropagation. Extensive experiments on multiple image
classification benchmark datasets show that our method is comparable to, and
outperforms in many cases, the standard convolution. For instance, using GMConv
for AlexNet and ResNet-50, the top-1 accuracy on ImageNet classification is
boosted by 0.98% and 0.85%, respectively.
- Abstract(参考訳): 正方形畳み込みは畳み込み演算のテンソル計算によく適合するため畳み込みニューラルネットワークの既定単位である。
しかし、ネットワークにとって最も重要なのは効果的な受容場(erf)であり、各ピクセルが出力に寄与する程度を示す。
ERFはガウス分布を示し、オフセットでピクセルをサンプリングするだけではモデル化できない。
ERFをシミュレートするため,本稿ではガウスマスク畳み込みカーネル(GMConv)を提案する。
具体的には、GMConvはガウス関数を用いて同心対称マスクを生成し、そのマスクをカーネル上に配置してRFを洗練させる。
我々のGMConvは、既存のCNNの標準の畳み込みを直接置き換えることができ、標準のバックプロパゲーションによって、エンドツーエンドで簡単に訓練することができる。
複数の画像分類ベンチマークデータセットに関する広範囲な実験により,本手法は標準畳み込み法に匹敵し,より優れることが示された。
例えば、gmconv for alexnet と resnet-50 を用いて、imagenet 分類における top-1 の精度を 0.98% と 0.85% で向上させる。
関連論文リスト
- GaussianToken: An Effective Image Tokenizer with 2D Gaussian Splatting [64.84383010238908]
本稿では,2次元ガウススプラッティングを解法とする効果的な画像トークン化手法を提案する。
一般に、我々のフレームワークは、2次元ガウス分布の局所的な影響を離散空間に統合する。
CIFAR, Mini-Net, ImageNet-1K 上での競合的再構成性能は,我々のフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2025-01-26T17:56:11Z) - Adaptive Split-Fusion Transformer [90.04885335911729]
本稿では,適応重みによる畳み込みと注目の分岐を異なる方法で扱うための適応分割変換器(ASF-former)を提案する。
ImageNet-1Kのような標準ベンチマークの実験では、我々のASFフォーマーはCNN、トランスフォーマー、ハイブリッドパイロットを精度で上回っている。
論文 参考訳(メタデータ) (2022-04-26T10:00:28Z) - Fast and High-Quality Image Denoising via Malleable Convolutions [72.18723834537494]
動的畳み込みの効率的な変種として、Malleable Convolution (MalleConv)を提案する。
以前の作品とは異なり、MalleConvは入力から空間的に変化するカーネルのより小さなセットを生成する。
また、MalleNetという造語であるMalleConvを用いて、効率的なdenoisingネットワークを構築した。
論文 参考訳(メタデータ) (2022-01-02T18:35:20Z) - Dilated convolution with learnable spacings [6.6389732792316005]
CNNは視覚変換器と競合するために受容野(RF)を必要とする。
RFは、畳み込みカーネルのサイズを増やすことで簡単に拡大できる。
トレーニング可能なパラメータの数は、2Dの場合、カーネルのサイズと4倍にスケールするが、急速に禁止される。
本稿では,パラメータ数を増大させることなくRFサイズを増大させる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-12-07T14:54:24Z) - Generative Convolution Layer for Image Generation [8.680676599607125]
本稿では生成的畳み込み(GConv)と呼ばれる新しい畳み込み法を紹介する。
GConvはまず与えられた潜在ベクトルと互換性のある有用なカーネルを選択し、次に選択されたカーネルを線形に組み合わせて潜在固有カーネルを作成する。
提案手法は,潜時固有のカーネルを用いて,高品質な画像の生成を促す潜時特有の特徴を生成する。
論文 参考訳(メタデータ) (2021-11-30T07:14:12Z) - Integrating Circle Kernels into Convolutional Neural Networks [30.950819638148104]
平方核は現代畳み込みニューラルネットワーク(CNN)の標準単位である
共進化のための等方性受容場を持つ円核を提案する。
我々のトレーニングは、対応するCNNの平方カーネルと比較すると、ほぼ同等の計算量である。
論文 参考訳(メタデータ) (2021-07-06T07:59:36Z) - Convolutional Normalization: Improving Deep Convolutional Network
Robustness and Training [44.66478612082257]
現代畳み込みニューラルネットワーク(convnets)では正規化技術が基本成分となっている
フーリエ領域における畳み込み構造を完全に活用できるシンプルで効率的な畳み込み正規化法を導入する。
畳み込み正規化は、重み行列の層単位でのスペクトルノルムを減少させ、ネットワークのリプシッツ性を改善することができることを示す。
論文 参考訳(メタデータ) (2021-03-01T00:33:04Z) - PSConv: Squeezing Feature Pyramid into One Compact Poly-Scale
Convolutional Layer [76.44375136492827]
畳み込みニューラルネットワーク(CNN)は、しばしばスケールに敏感である。
我々は、この後悔を、より細かい粒度でマルチスケールの機能を利用して埋める。
提案した畳み込み演算は、PSConv(Poly-Scale Convolution)と呼ばれ、拡張率のスペクトルを混合する。
論文 参考訳(メタデータ) (2020-07-13T05:14:11Z) - Locally Masked Convolution for Autoregressive Models [107.4635841204146]
LMConvは標準的な2Dコンボリューションの簡単な修正であり、任意のマスクを画像の各位置の重みに適用することができる。
我々は,パラメータを共有するが生成順序が異なる分布推定器のアンサンブルを学習し,全画像密度推定の性能を向上させる。
論文 参考訳(メタデータ) (2020-06-22T17:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。