論文の概要: ANAct: Adaptive Normalization for Activation Functions
- arxiv url: http://arxiv.org/abs/2208.13315v3
- Date: Mon, 5 Feb 2024 07:10:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 07:33:38.658335
- Title: ANAct: Adaptive Normalization for Activation Functions
- Title(参考訳): ANAct: アクティベーション関数の適応正規化
- Authors: Yuan Peiwen, Henan Liu, Zhu Changsheng, Yuyi Wang
- Abstract要約: 活性化関数がニューラルネットワークの前方および後方伝播にどのように影響するかを示す。
本稿では,階層間の一貫した勾配分散を維持するために,アクティベーション関数の正規化を行うANActを提案する。
- 参考スコア(独自算出の注目度): 4.914574267850376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we investigate the negative effect of activation functions on
forward and backward propagation and how to counteract this effect. First, We
examine how activation functions affect the forward and backward propagation of
neural networks and derive a general form for gradient variance that extends
the previous work in this area. We try to use mini-batch statistics to
dynamically update the normalization factor to ensure the normalization
property throughout the training process, rather than only accounting for the
state of the neural network after weight initialization. Second, we propose
ANAct, a method that normalizes activation functions to maintain consistent
gradient variance across layers and demonstrate its effectiveness through
experiments. We observe that the convergence rate is roughly related to the
normalization property. We compare ANAct with several common activation
functions on CNNs and residual networks and show that ANAct consistently
improves their performance. For instance, normalized Swish achieves 1.4\%
higher top-1 accuracy than vanilla Swish on ResNet50 with the Tiny ImageNet
dataset and more than 1.2\% higher with CIFAR-100.
- Abstract(参考訳): 本稿では,活性化関数の前方および後方伝播に対する負の効果と,その逆作用について検討する。
まず,アクティベーション関数がニューラルネットワークの前方および後方伝播にどのように影響するかを調べ,この領域における先行研究を拡張する勾配分散の一般的な形を導出する。
重み初期化後のニューラルネットワークの状態のみを説明するのではなく、トレーニングプロセス全体を通して正規化特性を保証するために、ミニバッチ統計を用いて正規化係数を動的に更新する。
第2に,活性化関数を正規化し,層間で一貫した勾配分散を維持し,実験によりその効果を示すanactを提案する。
収束速度は正規化特性と大まかに関係していると考えられる。
我々は,ANActとCNNおよび残差ネットワーク上の共通活性化関数を比較し,ANActが一貫して性能を改善することを示す。
例えば正規化swishは、小さなimagenetデータセットでresnet50のvanilla swishよりも1.4\%高いtop-1精度を達成し、cifar-100では1.2\%以上も高い。
関連論文リスト
- Adaptive Parametric Activation [29.177645094447815]
本研究では,アクティベーション関数をデータ分布に整合させることにより,バランスの取れたタスクと不均衡なタスクの両方のパフォーマンスを向上させることを示す。
適応パラメトリック活性化関数(Adaptive Parametric Activation function)を提案する。
APAは中間層とアテンション層の両方に適用でき、いくつかの不均衡なベンチマークで最先端を著しく上回っている。
論文 参考訳(メタデータ) (2024-07-11T14:57:27Z) - Improving Classification Neural Networks by using Absolute activation
function (MNIST/LeNET-5 example) [0.0]
ディープネットワークでは絶対的活性化は消滅や爆発的な勾配を引き起こしないため、絶対的活性化は単純なニューラルネットワークとディープニューラルネットワークの両方で使用できる。
Absolute アクティベーションに基づく LeNet のようなアーキテクチャで MNIST 問題を解くことで,予測精度を向上させることにより,ニューラルネットワーク内のトレーニングパラメータの数を著しく削減できることが示されている。
論文 参考訳(メタデータ) (2023-04-23T22:17:58Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Data-aware customization of activation functions reduces neural network
error [0.35172332086962865]
本稿では,データ認識によるアクティベーション関数のカスタマイズにより,ニューラルネットワークのエラーが大幅に低減されることを示す。
既に精製されたニューラルネットワークにおけるカモメの活性化機能への簡単な置換は、エラーのオーダー・オブ・マグニチュードの低減につながる可能性がある。
論文 参考訳(メタデータ) (2023-01-16T23:38:37Z) - Theoretical Characterization of How Neural Network Pruning Affects its
Generalization [131.1347309639727]
この研究は、異なるプルーニング率がモデルの勾配降下ダイナミクスと一般化にどのように影響するかを研究する最初の試みである。
プルーニング率が一定の閾値以下である限り、勾配降下はトレーニング損失をゼロに導くことができる。
より驚くべきことに、プルーニング分数が大きくなるにつれて、一般化境界はより良くなる。
論文 参考訳(メタデータ) (2023-01-01T03:10:45Z) - Stochastic Adaptive Activation Function [1.9199289015460212]
本研究では,単位の位置や入力の文脈に応じて,異なるしきい値と適応的なアクティベーションを促進する,シンプルで効果的なアクティベーション関数を提案する。
実験により,我々のアクティベーション関数は,多くのディープラーニングアプリケーションにおいて,より正確な予測と早期収束の利点を享受できることを示した。
論文 参考訳(メタデータ) (2022-10-21T01:57:25Z) - Transformers with Learnable Activation Functions [63.98696070245065]
我々は、Rational Activation Function (RAF) を用いて、入力データに基づいてトレーニング中の最適なアクティベーション関数を学習する。
RAFは、学習されたアクティベーション関数に従って事前学習されたモデルを分析し、解釈するための新しい研究方向を開く。
論文 参考訳(メタデータ) (2022-08-30T09:47:31Z) - Differentially private training of residual networks with scale
normalisation [64.60453677988517]
残差ネットワーク(ResNets)におけるバッチ正規化(BN)置換層の最適選択について検討する。
残差ブロックにおけるスケールミキシング現象について検討し、2つの枝の活性化を異なるスケールで行う。
論文 参考訳(メタデータ) (2022-03-01T09:56:55Z) - ErfAct: Non-monotonic smooth trainable Activation Functions [1.5267236995686555]
本稿では,ErfAct-1とErfAct-2という2つの新しい非単調なスムーズなアクティベーション関数を提案する。
実験の結果,提案機能はReLUやSwish,Mishなど,広く使われているアクティベーションに比べてネットワーク性能が大幅に向上していることがわかった。
論文 参考訳(メタデータ) (2021-09-09T16:17:38Z) - Optimization Theory for ReLU Neural Networks Trained with Normalization
Layers [82.61117235807606]
ディープニューラルネットワークの成功は、部分的には正規化レイヤの使用によるものだ。
我々の分析は、正規化の導入がランドスケープをどのように変化させ、より高速なアクティベーションを実現するかを示している。
論文 参考訳(メタデータ) (2020-06-11T23:55:54Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。