論文の概要: Learning strides in convolutional neural networks
- arxiv url: http://arxiv.org/abs/2202.01653v1
- Date: Thu, 3 Feb 2022 16:03:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-04 18:44:16.407281
- Title: Learning strides in convolutional neural networks
- Title(参考訳): 畳み込みニューラルネットワークにおける学習ステップ
- Authors: Rachid Riad, Olivier Teboul, David Grangier, Neil Zeghidour
- Abstract要約: この研究は、学習可能なステップを持つ最初のダウンサンプリング層であるDiffStrideを紹介している。
音声と画像の分類実験は,ソリューションの汎用性と有効性を示す。
- 参考スコア(独自算出の注目度): 34.20666933112202
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Convolutional neural networks typically contain several downsampling
operators, such as strided convolutions or pooling layers, that progressively
reduce the resolution of intermediate representations. This provides some
shift-invariance while reducing the computational complexity of the whole
architecture. A critical hyperparameter of such layers is their stride: the
integer factor of downsampling. As strides are not differentiable, finding the
best configuration either requires cross-validation or discrete optimization
(e.g. architecture search), which rapidly become prohibitive as the search
space grows exponentially with the number of downsampling layers. Hence,
exploring this search space by gradient descent would allow finding better
configurations at a lower computational cost. This work introduces DiffStride,
the first downsampling layer with learnable strides. Our layer learns the size
of a cropping mask in the Fourier domain, that effectively performs resizing in
a differentiable way. Experiments on audio and image classification show the
generality and effectiveness of our solution: we use DiffStride as a drop-in
replacement to standard downsampling layers and outperform them. In particular,
we show that introducing our layer into a ResNet-18 architecture allows keeping
consistent high performance on CIFAR10, CIFAR100 and ImageNet even when
training starts from poor random stride configurations. Moreover, formulating
strides as learnable variables allows us to introduce a regularization term
that controls the computational complexity of the architecture. We show how
this regularization allows trading off accuracy for efficiency on ImageNet.
- Abstract(参考訳): 畳み込みニューラルネットワークは通常、ストライド畳み込みやプール層のようないくつかのダウンサンプリング演算子を含み、中間表現の分解を徐々に減少させる。
これはアーキテクチャ全体の計算複雑性を減らしながら、シフト不変性を提供する。
そのような層の臨界ハイパーパラメータは、そのストライドである:ダウンサンプリングの整数係数である。
ストライドが微分できないため、最良の構成を見つけるにはクロスバリデーションか離散最適化(アーキテクチャ探索など)が必要であるが、探索空間が指数関数的に増大するにつれて急速に禁止される。
したがって、勾配降下によるこの探索空間の探索は、より低い計算コストでより良い構成を見つけることができる。
この研究は、学習可能なステップを持つ最初のダウンサンプリング層であるDiffStrideを紹介している。
この層はフーリエ領域におけるクロッピングマスクのサイズを学習し,微分可能な方法で再サイズを効果的に行う。
オーディオと画像の分類実験は、私たちのソリューションの汎用性と有効性を示している。
特に,CIFAR10,CIFAR100,ImageNetにおいて,ランダムなストライド構成からトレーニングを開始する場合でも,階層をResNet-18アーキテクチャに導入することで,一貫したハイパフォーマンスを維持することができることを示す。
さらに、学習可能な変数としてステップを定式化することで、アーキテクチャの計算複雑性を制御する正規化項を導入することができる。
この正規化によって、imagenetの効率性に対する精度のトレードオフが可能になることを示す。
関連論文リスト
- On the effectiveness of partial variance reduction in federated learning
with heterogeneous data [27.527995694042506]
クライアント間の最終分類層の多様性は、FedAvgアルゴリズムの性能を阻害することを示す。
そこで本研究では,最終層のみの分散還元によるモデル修正を提案する。
同様の通信コストや低い通信コストで既存のベンチマークを著しく上回っていることを実証する。
論文 参考訳(メタデータ) (2022-12-05T11:56:35Z) - Pushing the Efficiency Limit Using Structured Sparse Convolutions [82.31130122200578]
本稿では,画像の固有構造を利用して畳み込みフィルタのパラメータを削減する構造的スパース畳み込み(SSC)を提案する。
我々は、SSCが効率的なアーキテクチャにおける一般的なレイヤ(奥行き、グループ回り、ポイント回りの畳み込み)の一般化であることを示す。
SSCに基づくアーキテクチャは、CIFAR-10、CIFAR-100、Tiny-ImageNet、ImageNet分類ベンチマークのベースラインと比較して、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-23T18:37:22Z) - CUF: Continuous Upsampling Filters [25.584630142930123]
本稿では,画像処理における最も重要な操作の一つとして,アップサンプリングについて考察する。
本稿では、アップサンプリングカーネルをニューラルネットワークとしてパラメータ化することを提案する。
このパラメータ化により、競合する任意のスケールの超解像アーキテクチャと比較して40倍のパラメータ数の削減が得られる。
論文 参考訳(メタデータ) (2022-10-13T12:45:51Z) - Effective Invertible Arbitrary Image Rescaling [77.46732646918936]
Invertible Neural Networks (INN)は、ダウンスケーリングとアップスケーリングのサイクルを共同で最適化することにより、アップスケーリングの精度を大幅に向上させることができる。
本研究の1つのモデルのみをトレーニングすることにより、任意の画像再スケーリングを実現するために、単純で効果的な非可逆的再スケーリングネットワーク(IARN)を提案する。
LR出力の知覚品質を損なうことなく、双方向任意再スケーリングにおいて最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-09-26T22:22:30Z) - Pruning-as-Search: Efficient Neural Architecture Search via Channel
Pruning and Structural Reparameterization [50.50023451369742]
プルーニング・アズ・サーチ(Pruning-as-Search、PaS)は、必要なサブネットワークを自動的に効率的に検索するエンドツーエンドのプルーニング手法である。
提案したアーキテクチャは,ImageNet-1000分類タスクにおいて,1.0%$ Top-1精度で先行技術より優れていた。
論文 参考訳(メタデータ) (2022-06-02T17:58:54Z) - Learning with convolution and pooling operations in kernel methods [8.528384027684192]
近年の実証研究により、階層的畳み込みカーネルは、画像分類タスクにおけるカーネルメソッドの性能を向上させることが示されている。
畳み込みアーキテクチャにおける近似と一般化の正確な相互作用について検討する。
この結果から,対象関数に適応したアーキテクチャの選択が,サンプルの複雑性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2021-11-16T09:00:44Z) - SDWNet: A Straight Dilated Network with Wavelet Transformation for Image
Deblurring [23.86692375792203]
画像劣化は、ぼやけた画像から鋭い画像を復元することを目的としたコンピュータビジョンの問題である。
我々のモデルは拡張畳み込みを用いて空間分解能の高い大きな受容場を得ることができる。
本稿では,ウェーブレット変換を用いた新しいモジュールを提案する。
論文 参考訳(メタデータ) (2021-10-12T07:58:10Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z) - GradInit: Learning to Initialize Neural Networks for Stable and
Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。
各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。
また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文 参考訳(メタデータ) (2021-02-16T11:45:35Z) - Fitting the Search Space of Weight-sharing NAS with Graph Convolutional
Networks [100.14670789581811]
サンプルサブネットワークの性能に適合するグラフ畳み込みネットワークを訓練する。
この戦略により、選択された候補集合において、より高いランク相関係数が得られる。
論文 参考訳(メタデータ) (2020-04-17T19:12:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。