論文の概要: Dilated convolution with learnable spacings
- arxiv url: http://arxiv.org/abs/2112.03740v4
- Date: Thu, 11 May 2023 11:13:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-12 19:27:26.823858
- Title: Dilated convolution with learnable spacings
- Title(参考訳): 学習可能な間隔による拡張畳み込み
- Authors: Ismail Khalfaoui-Hassani, Thomas Pellegrini and Timoth\'ee Masquelier
- Abstract要約: CNNは視覚変換器と競合するために受容野(RF)を必要とする。
RFは、畳み込みカーネルのサイズを増やすことで簡単に拡大できる。
トレーニング可能なパラメータの数は、2Dの場合、カーネルのサイズと4倍にスケールするが、急速に禁止される。
本稿では,パラメータ数を増大させることなくRFサイズを増大させる新しい手法を提案する。
- 参考スコア(独自算出の注目度): 6.6389732792316005
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent works indicate that convolutional neural networks (CNN) need large
receptive fields (RF) to compete with visual transformers and their attention
mechanism. In CNNs, RFs can simply be enlarged by increasing the convolution
kernel sizes. Yet the number of trainable parameters, which scales
quadratically with the kernel's size in the 2D case, rapidly becomes
prohibitive, and the training is notoriously difficult. This paper presents a
new method to increase the RF size without increasing the number of parameters.
The dilated convolution (DC) has already been proposed for the same purpose. DC
can be seen as a convolution with a kernel that contains only a few non-zero
elements placed on a regular grid. Here we present a new version of the DC in
which the spacings between the non-zero elements, or equivalently their
positions, are no longer fixed but learnable via backpropagation thanks to an
interpolation technique. We call this method "Dilated Convolution with
Learnable Spacings" (DCLS) and generalize it to the n-dimensional convolution
case. However, our main focus here will be on the 2D case. We first tried our
approach on ResNet50: we drop-in replaced the standard convolutions with DCLS
ones, which increased the accuracy of ImageNet1k classification at
iso-parameters, but at the expense of the throughput. Next, we used the recent
ConvNeXt state-of-the-art convolutional architecture and drop-in replaced the
depthwise convolutions with DCLS ones. This not only increased the accuracy of
ImageNet1k classification but also of typical downstream and robustness tasks,
again at iso-parameters but this time with negligible cost on throughput, as
ConvNeXt uses separable convolutions. Conversely, classic DC led to poor
performance with both ResNet50 and ConvNeXt. The code of the method is
available at:
https://github.com/K-H-Ismail/Dilated-Convolution-with-Learnable-Spacings-PyTorch.
- Abstract(参考訳): 近年の研究では、畳み込みニューラルネットワーク(cnn)が視覚トランスフォーマーと競合するために大きな受容場(rf)を必要とすることが示されている。
CNNでは、畳み込みカーネルのサイズを増やすことでRFを単純に拡大することができる。
しかし、2Dの場合、カーネルのサイズと4倍にスケールするトレーニング可能なパラメータの数は、急速に禁止され、トレーニングは非常に困難である。
本稿では,パラメータ数を増やすことなくRFサイズを増大させる新しい手法を提案する。
拡張畳み込み(DC)は、既に同じ目的のために提案されている。
DCはカーネルとの畳み込みと見なすことができ、通常のグリッド上に配置されるゼロでない要素はわずかである。
本稿では,非零要素間の間隔,あるいはその位置がもはや固定されていないが,補間技術によりバックプロパゲーションによって学習可能なdcの新しいバージョンを提案する。
我々はこの手法を"Dilated Convolution with Learnable Spacings" (DCLS)と呼び、n次元の畳み込みケースに一般化する。
しかし、私たちの主な焦点は2Dケースです。
私たちはまず、ResNet50のアプローチを試しました。標準の畳み込みをDCLSに置き換えて、Iso-parametersにおけるImageNet1k分類の精度を高めましたが、スループットを犠牲にしました。
次に、最近のConvNeXtの最先端の畳み込みアーキテクチャを使用し、深い畳み込みをDCLSに置き換えました。
これはimagenet1k分類の精度を高めるだけでなく、isoパラメータでの典型的な下流およびロバストネスタスクの精度を高めるだけでなく、convnextでは分離可能な畳み込みを使用するため、スループットに無視できるコストがかかる。
逆に、古典的なDCはResNet50とConvNeXtで性能が劣った。
メソッドのコードは以下の通りである。 https://github.com/K-H-Ismail/Dilated-Convolution-with-Learnable-Spacings-PyTorch。
関連論文リスト
- LDConv: Linear deformable convolution for improving convolutional neural networks [18.814748446649627]
Linear Deformable Convolution (LDConv) は、ネットワーク性能を改善するために畳み込み操作を置き換えることができる、プラグアンドプレイの畳み込み操作である。
LDConvは、標準畳み込みと変形可能なConvのパラメータ数の成長傾向を線形成長に補正する。
論文 参考訳(メタデータ) (2023-11-20T07:54:54Z) - Audio classification with Dilated Convolution with Learnable Spacings [10.89964981012741]
学習可能な間隔による拡張畳み込み(DCLS)は、バックプロパゲーションによるトレーニングを通じてカーネル要素の位置を学習する最近の畳み込み法である。
ここでは、AudioSet分類ベンチマークを用いて、DCLSはオーディオタグ付けにも有用であることを示す。
論文 参考訳(メタデータ) (2023-09-25T09:09:54Z) - Dilated Convolution with Learnable Spacings: beyond bilinear
interpolation [10.89964981012741]
Dilated Convolution with Learnable Spacingsは拡張畳み込みのバリエーションとして提案されている。
非整数位置は勾配によって処理される。
メソッドコードはPyTorchに基づいている。
論文 参考訳(メタデータ) (2023-06-01T15:42:08Z) - GMConv: Modulating Effective Receptive Fields for Convolutional Kernels [52.50351140755224]
畳み込みニューラルネットワークでは、固定N$times$N受容場(RF)を持つ正方形カーネルを用いて畳み込みを行う。
ERFが通常ガウス分布を示す性質に着想を得て,本研究でガウス・マスク畳み込みカーネル(GMConv)を提案する。
私たちのGMConvは、既存のCNNの標準の畳み込みを直接置き換えることができ、標準のバックプロパゲーションによって、エンドツーエンドで簡単に訓練することができます。
論文 参考訳(メタデータ) (2023-02-09T10:17:17Z) - An Improved Normed-Deformable Convolution for Crowd Counting [70.02434289611566]
頭の中のCNN機能のスケール適応機能を活用するために、変形可能な畳み込みを提案する。
本論文では,改良されたノーマッド・デフォルマブル・コンボリューション(textiti.e.NDConv)を提案する。
本手法は,上海技術A,上海技術B,UCF_QNRF,UCF_CC_50データセットの最先端手法より優れている。
論文 参考訳(メタデータ) (2022-06-16T10:56:26Z) - Adaptive Split-Fusion Transformer [90.04885335911729]
本稿では,適応重みによる畳み込みと注目の分岐を異なる方法で扱うための適応分割変換器(ASF-former)を提案する。
ImageNet-1Kのような標準ベンチマークの実験では、我々のASFフォーマーはCNN、トランスフォーマー、ハイブリッドパイロットを精度で上回っている。
論文 参考訳(メタデータ) (2022-04-26T10:00:28Z) - Hyper-Convolutions via Implicit Kernels for Medical Imaging [18.98078260974008]
本稿では、空間座標を用いて畳み込みカーネルを暗黙的に符号化する新しいビルディングブロックであるthithyper-convolutionを提案する。
実験では、通常の畳み込みをハイパー畳み込みに置き換えることで、少ないパラメータで性能が向上し、ノイズに対する堅牢性が向上することを示した。
論文 参考訳(メタデータ) (2022-02-06T03:56:19Z) - Content-Aware Convolutional Neural Networks [98.97634685964819]
畳み込みニューラルネットワーク(CNN)は、畳み込み層の強力な特徴学習能力によって大きな成功を収めている。
本研究では,スムーズなウィンドウを自動的に検出し,元の大規模カーネルを置き換えるために1x1畳み込みカーネルを適用するContent-aware Convolution (CAC)を提案する。
論文 参考訳(メタデータ) (2021-06-30T03:54:35Z) - DO-Conv: Depthwise Over-parameterized Convolutional Layer [66.46704754669169]
本稿では,各入力チャネルが異なる2次元カーネルに変換されるような,奥行きの畳み込みを付加した畳み込み層の拡張を提案する。
従来の畳み込み層をDO-Conv層に置き換えただけでCNNの性能が向上することを示す。
論文 参考訳(メタデータ) (2020-06-22T06:57:10Z) - XSepConv: Extremely Separated Convolution [60.90871656244126]
極めて分離された畳み込みブロック(XSepConv)を提案する。
空間的に分離可能な畳み込みを奥行きの畳み込みに融合させ、大きなカーネルの計算コストとパラメータサイズの両方を削減する。
XSepConvは、大規模なカーネルサイズを持つバニラ奥行きの畳み込みの効率的な代替として設計されている。
論文 参考訳(メタデータ) (2020-02-27T11:46:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。