論文の概要: Normalized Activation Function: Toward Better Convergence
- arxiv url: http://arxiv.org/abs/2208.13315v1
- Date: Mon, 29 Aug 2022 00:17:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-30 13:08:00.674606
- Title: Normalized Activation Function: Toward Better Convergence
- Title(参考訳): 正規化活性化関数:より良い収束に向けて
- Authors: Yuan Peiwen, Zhu Changsheng
- Abstract要約: 本研究では, 活性化関数が勾配の分散に与える影響について検討する。
活性化関数を正規化してすべての層で勾配のばらつきを同じに保つ手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Activation functions are essential for neural networks to introduce
non-linearity. A great number of empirical experiments have validated various
activation functions, yet theoretical research on activation functions are
insufficient. In this work, we study the impact of activation functions on the
variance of gradients and propose an approach to normalize activation functions
to keep the variance of the gradient same for all layers so that the neural
network can achieve better convergence. First, we complement the previous work
on the analysis of the variance of gradients where the impact of activation
functions are just considered in an idealized initial state which almost cannot
be preserved during training and obtained a property that good activation
functions should satisfy as possible. Second, we offer an approach to normalize
activation functions and testify its effectiveness on prevalent activation
functions empirically. And by observing experiments, we discover that the speed
of convergence is roughly related to the property we derived in the former
part. We run experiments of our normalized activation functions against common
activation functions. And the result shows our approach consistently
outperforms their unnormalized counterparts. For example, normalized Swish
outperforms vanilla Swish by 1.2% on ResNet50 with CIFAR-100 in terms of top-1
accuracy. Our method improves the performance by simply replacing activation
functions with their normalized ones in both fully-connected networks and
residual networks.
- Abstract(参考訳): アクティベーション関数は、ニューラルネットワークが非線形性を導入するために必須である。
多くの実験が様々な活性化関数を検証するが、活性化関数に関する理論的研究は不十分である。
本研究では, 活性化関数が勾配の分散に与える影響について検討し, 活性化関数を正規化して, ニューラルネットワークの収束性を高めるために, 全層で勾配の分散を維持する手法を提案する。
まず, 学習中にほとんど保存できない理想化された初期状態において, 活性化関数の影響が考慮される勾配のばらつきの解析に関する先行研究を補完し, 良好な活性化関数ができるだけ満足すべき特性を得た。
次に,アクティベーション関数の正規化と,アクティベーション関数の有効性を実証する手法を提案する。
そして、実験を観察することで、収束の速度が、前部で導いた性質と大まかに関連していることが分かる。
一般活性化関数に対する正規化活性化関数の実験を行う。
結果は、我々のアプローチが、非正規化のアプローチを一貫して上回っていることを示している。
例えば、正規化されたSwishは、トップ1の精度でResNet50でバニラSwishを1.2%上回る。
本手法は, 完全接続ネットワークと残差ネットワークの両方において, 活性化関数を正規化関数に置き換えることにより, 性能を向上する。
関連論文リスト
- Adaptive Parametric Activation [29.177645094447815]
本研究では,アクティベーション関数をデータ分布に整合させることにより,バランスの取れたタスクと不均衡なタスクの両方のパフォーマンスを向上させることを示す。
適応パラメトリック活性化関数(Adaptive Parametric Activation function)を提案する。
APAは中間層とアテンション層の両方に適用でき、いくつかの不均衡なベンチマークで最先端を著しく上回っている。
論文 参考訳(メタデータ) (2024-07-11T14:57:27Z) - Improving Classification Neural Networks by using Absolute activation
function (MNIST/LeNET-5 example) [0.0]
ディープネットワークでは絶対的活性化は消滅や爆発的な勾配を引き起こしないため、絶対的活性化は単純なニューラルネットワークとディープニューラルネットワークの両方で使用できる。
Absolute アクティベーションに基づく LeNet のようなアーキテクチャで MNIST 問題を解くことで,予測精度を向上させることにより,ニューラルネットワーク内のトレーニングパラメータの数を著しく削減できることが示されている。
論文 参考訳(メタデータ) (2023-04-23T22:17:58Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Data-aware customization of activation functions reduces neural network
error [0.35172332086962865]
本稿では,データ認識によるアクティベーション関数のカスタマイズにより,ニューラルネットワークのエラーが大幅に低減されることを示す。
既に精製されたニューラルネットワークにおけるカモメの活性化機能への簡単な置換は、エラーのオーダー・オブ・マグニチュードの低減につながる可能性がある。
論文 参考訳(メタデータ) (2023-01-16T23:38:37Z) - Theoretical Characterization of How Neural Network Pruning Affects its
Generalization [131.1347309639727]
この研究は、異なるプルーニング率がモデルの勾配降下ダイナミクスと一般化にどのように影響するかを研究する最初の試みである。
プルーニング率が一定の閾値以下である限り、勾配降下はトレーニング損失をゼロに導くことができる。
より驚くべきことに、プルーニング分数が大きくなるにつれて、一般化境界はより良くなる。
論文 参考訳(メタデータ) (2023-01-01T03:10:45Z) - Stochastic Adaptive Activation Function [1.9199289015460212]
本研究では,単位の位置や入力の文脈に応じて,異なるしきい値と適応的なアクティベーションを促進する,シンプルで効果的なアクティベーション関数を提案する。
実験により,我々のアクティベーション関数は,多くのディープラーニングアプリケーションにおいて,より正確な予測と早期収束の利点を享受できることを示した。
論文 参考訳(メタデータ) (2022-10-21T01:57:25Z) - Transformers with Learnable Activation Functions [63.98696070245065]
我々は、Rational Activation Function (RAF) を用いて、入力データに基づいてトレーニング中の最適なアクティベーション関数を学習する。
RAFは、学習されたアクティベーション関数に従って事前学習されたモデルを分析し、解釈するための新しい研究方向を開く。
論文 参考訳(メタデータ) (2022-08-30T09:47:31Z) - Differentially private training of residual networks with scale
normalisation [64.60453677988517]
残差ネットワーク(ResNets)におけるバッチ正規化(BN)置換層の最適選択について検討する。
残差ブロックにおけるスケールミキシング現象について検討し、2つの枝の活性化を異なるスケールで行う。
論文 参考訳(メタデータ) (2022-03-01T09:56:55Z) - ErfAct: Non-monotonic smooth trainable Activation Functions [1.5267236995686555]
本稿では,ErfAct-1とErfAct-2という2つの新しい非単調なスムーズなアクティベーション関数を提案する。
実験の結果,提案機能はReLUやSwish,Mishなど,広く使われているアクティベーションに比べてネットワーク性能が大幅に向上していることがわかった。
論文 参考訳(メタデータ) (2021-09-09T16:17:38Z) - Optimization Theory for ReLU Neural Networks Trained with Normalization
Layers [82.61117235807606]
ディープニューラルネットワークの成功は、部分的には正規化レイヤの使用によるものだ。
我々の分析は、正規化の導入がランドスケープをどのように変化させ、より高速なアクティベーションを実現するかを示している。
論文 参考訳(メタデータ) (2020-06-11T23:55:54Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。