論文の概要: Training BatchNorm and Only BatchNorm: On the Expressive Power of Random
Features in CNNs
- arxiv url: http://arxiv.org/abs/2003.00152v3
- Date: Sun, 21 Mar 2021 21:48:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 20:00:14.087450
- Title: Training BatchNorm and Only BatchNorm: On the Expressive Power of Random
Features in CNNs
- Title(参考訳): BatchNormとBatchNormのトレーニング: CNNにおけるランダム機能の表現力について
- Authors: Jonathan Frankle, David J. Schwab, and Ari S. Morcos
- Abstract要約: 深層学習における特徴の変換に使用されるアフィンパラメータの役割と表現力について検討した。
この構成では、十分に深いResNetsが82%(CIFAR-10)、32%(ImageNet、トップ5)の精度に達しています。
これらの結果は、ディープラーニングにおけるアフィンパラメータの表現力を強調するだけでなく、より広い意味では、ランダムな特徴のシフトと再スケーリングによって構築されたニューラルネットワークの表現力を特徴付ける。
- 参考スコア(独自算出の注目度): 32.91801117446448
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A wide variety of deep learning techniques from style transfer to multitask
learning rely on training affine transformations of features. Most prominent
among these is the popular feature normalization technique BatchNorm, which
normalizes activations and then subsequently applies a learned affine
transform. In this paper, we aim to understand the role and expressive power of
affine parameters used to transform features in this way. To isolate the
contribution of these parameters from that of the learned features they
transform, we investigate the performance achieved when training only these
parameters in BatchNorm and freezing all weights at their random
initializations. Doing so leads to surprisingly high performance considering
the significant limitations that this style of training imposes. For example,
sufficiently deep ResNets reach 82% (CIFAR-10) and 32% (ImageNet, top-5)
accuracy in this configuration, far higher than when training an equivalent
number of randomly chosen parameters elsewhere in the network. BatchNorm
achieves this performance in part by naturally learning to disable around a
third of the random features. Not only do these results highlight the
expressive power of affine parameters in deep learning, but - in a broader
sense - they characterize the expressive power of neural networks constructed
simply by shifting and rescaling random features.
- Abstract(参考訳): スタイル伝達からマルチタスク学習までの幅広いディープラーニング技術は、特徴のアフィン変換のトレーニングに依存している。
最も顕著なのは、アクティベーションを正規化し、その後学習されたアフィン変換を適用する、人気のある機能正規化テクニックであるBatchNormである。
本稿では,機能変換に使用されるアフィンパラメータの役割と表現力を理解することを目的とする。
これらのパラメータの寄与を変換した学習特徴から分離するために,BatchNormでこれらのパラメータのみをトレーニングし,ランダムな初期化ですべての重みを凍結する際の性能について検討する。
そうすることで、このトレーニングスタイルが課す大きな制限を考えると、驚くほど高いパフォーマンスが得られます。
例えば、十分に深い再ネットは82% (cifar-10) と32% (imagenet, top-5) の精度に達し、ネットワーク内の他の場所で同じ数のランダムに選択されたパラメータをトレーニングする場合よりもはるかに高い。
BatchNormは、ランダムな機能の3分の1を無効にすることを自然に学習することで、このパフォーマンスを達成する。
これらの結果は、ディープラーニングにおけるアフィンパラメータの表現力を強調するだけでなく、より広い意味では、ランダムな特徴のシフトと再スケーリングによって構築されたニューラルネットワークの表現力を特徴付ける。
関連論文リスト
- Unnatural Algorithms in Machine Learning [0.0]
この特性を持つ最適化アルゴリズムは、自然勾配降下の離散近似とみなすことができる。
本稿では、この自然性をより一般的に導入する簡単な方法を紹介し、多くの一般的な機械学習トレーニングアルゴリズムについて検討する。
論文 参考訳(メタデータ) (2023-12-07T22:43:37Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Permutation Equivariant Neural Functionals [92.0667671999604]
この研究は、他のニューラルネットワークの重みや勾配を処理できるニューラルネットワークの設計を研究する。
隠れた層状ニューロンには固有の順序がないため, 深いフィードフォワードネットワークの重みに生じる置換対称性に着目する。
実験の結果, 置換同変ニューラル関数は多種多様なタスクに対して有効であることがわかった。
論文 参考訳(メタデータ) (2023-02-27T18:52:38Z) - Consensus Function from an $L_p^q-$norm Regularization Term for its Use
as Adaptive Activation Functions in Neural Networks [0.0]
本稿では,学習過程においてその形状に適応する暗黙的,パラメトリックな非線形活性化関数の定義と利用を提案する。
この事実は、ネットワーク内で最適化するパラメータの空間を増大させるが、柔軟性を高め、ニューラルネットワークの概念を一般化する。
予備的な結果は、この種の適応的アクティベーション関数によるニューラルネットワークの使用は、回帰や分類の例における誤差を減少させることを示している。
論文 参考訳(メタデータ) (2022-06-30T04:48:14Z) - Neural Network Pruning Through Constrained Reinforcement Learning [3.2880869992413246]
本稿では,ニューラルネットワークを解析するための一般的な手法を提案する。
提案手法は、事前に定義された計算予算を尊重するためにニューラルネットワークを創出することができる。
標準画像分類データセットにおける最先端手法との比較により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2021-10-16T11:57:38Z) - Efficient Feature Transformations for Discriminative and Generative
Continual Learning [98.10425163678082]
継続的学習のための簡易タスク特化機能マップ変換戦略を提案する。
これらは新しいタスクを学習するための強力な柔軟性を提供し、ベースアーキテクチャに最小パラメータを追加することで実現される。
本手法の有効性と効率を,判別(cifar-100およびimagenet-1k)および生成的タスクの一連の実験を用いて実証する。
論文 参考訳(メタデータ) (2021-03-25T01:48:14Z) - GradInit: Learning to Initialize Neural Networks for Stable and
Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。
各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。
また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文 参考訳(メタデータ) (2021-02-16T11:45:35Z) - Parameter-Efficient Transfer Learning with Diff Pruning [108.03864629388404]
diff pruningは、プリトレイン・ファインチューンフレームワーク内でパラメータ効率の高い転送学習を可能にするシンプルなアプローチです。
diff pruningで微調整されたモデルは、GLUEベンチマークで完全に微調整されたベースラインのパフォーマンスと一致します。
論文 参考訳(メタデータ) (2020-12-14T12:34:01Z) - Training Invertible Linear Layers through Rank-One Perturbations [0.0]
この研究は、非可逆線形層をトレーニングするための新しいアプローチを示す。
ネットワークパラメータを直接最適化する代わりに、ランク1の摂動を訓練し、しばしば実際の重み行列に追加する。
このような非可逆ブロックが混合性を改善し, 結果として発生する流れのモード分離を正規化する方法を示す。
論文 参考訳(メタデータ) (2020-10-14T12:43:47Z) - Beyond Dropout: Feature Map Distortion to Regularize Deep Neural
Networks [107.77595511218429]
本稿では,ディープニューラルネットワークの中間層に関連する実験的なRademacher複雑性について検討する。
上記の問題に対処するための特徴歪み法(Disout)を提案する。
より高い試験性能を有するディープニューラルネットワークを作製するための特徴写像歪みの優位性を解析し、実証した。
論文 参考訳(メタデータ) (2020-02-23T13:59:13Z) - Cooperative Initialization based Deep Neural Network Training [35.14235994478142]
本手法では,ネットワークのトレーニング中に,全ての重みパラメータの更新に複数のアクティベーション関数を用いる。
提案手法は,様々なベースラインに優れ,同時に分類や検出など,さまざまなタスクに対して優れた性能を発揮する。
論文 参考訳(メタデータ) (2020-01-05T14:08:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。