Fugu-MT 論文翻訳(概要): Normalized Activation Function: Toward Better Convergence

論文の概要: Normalized Activation Function: Toward Better Convergence

arxiv url: http://arxiv.org/abs/2208.13315v1
Date: Mon, 29 Aug 2022 00:17:32 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-30 13:08:00.674606
Title: Normalized Activation Function: Toward Better Convergence
Title（参考訳）: 正規化活性化関数:より良い収束に向けて
Authors: Yuan Peiwen, Zhu Changsheng
Abstract要約: 本研究では, 活性化関数が勾配の分散に与える影響について検討する。活性化関数を正規化してすべての層で勾配のばらつきを同じに保つ手法を提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Activation functions are essential for neural networks to introduce non-linearity. A great number of empirical experiments have validated various activation functions, yet theoretical research on activation functions are insufficient. In this work, we study the impact of activation functions on the variance of gradients and propose an approach to normalize activation functions to keep the variance of the gradient same for all layers so that the neural network can achieve better convergence. First, we complement the previous work on the analysis of the variance of gradients where the impact of activation functions are just considered in an idealized initial state which almost cannot be preserved during training and obtained a property that good activation functions should satisfy as possible. Second, we offer an approach to normalize activation functions and testify its effectiveness on prevalent activation functions empirically. And by observing experiments, we discover that the speed of convergence is roughly related to the property we derived in the former part. We run experiments of our normalized activation functions against common activation functions. And the result shows our approach consistently outperforms their unnormalized counterparts. For example, normalized Swish outperforms vanilla Swish by 1.2% on ResNet50 with CIFAR-100 in terms of top-1 accuracy. Our method improves the performance by simply replacing activation functions with their normalized ones in both fully-connected networks and residual networks.
Abstract（参考訳）: アクティベーション関数は、ニューラルネットワークが非線形性を導入するために必須である。多くの実験が様々な活性化関数を検証するが、活性化関数に関する理論的研究は不十分である。本研究では, 活性化関数が勾配の分散に与える影響について検討し, 活性化関数を正規化して, ニューラルネットワークの収束性を高めるために, 全層で勾配の分散を維持する手法を提案する。まず, 学習中にほとんど保存できない理想化された初期状態において, 活性化関数の影響が考慮される勾配のばらつきの解析に関する先行研究を補完し, 良好な活性化関数ができるだけ満足すべき特性を得た。次に,アクティベーション関数の正規化と,アクティベーション関数の有効性を実証する手法を提案する。そして、実験を観察することで、収束の速度が、前部で導いた性質と大まかに関連していることが分かる。一般活性化関数に対する正規化活性化関数の実験を行う。結果は、我々のアプローチが、非正規化のアプローチを一貫して上回っていることを示している。例えば、正規化されたSwishは、トップ1の精度でResNet50でバニラSwishを1.2%上回る。本手法は, 完全接続ネットワークと残差ネットワークの両方において, 活性化関数を正規化関数に置き換えることにより, 性能を向上する。

関連論文リスト

Adaptive Parametric Activation [29.177645094447815]
本研究では,アクティベーション関数をデータ分布に整合させることにより,バランスの取れたタスクと不均衡なタスクの両方のパフォーマンスを向上させることを示す。適応パラメトリック活性化関数(Adaptive Parametric Activation function)を提案する。 APAは中間層とアテンション層の両方に適用でき、いくつかの不均衡なベンチマークで最先端を著しく上回っている。
論文参考訳（メタデータ） (2024-07-11T14:57:27Z)
Improving Classification Neural Networks by using Absolute activation function (MNIST/LeNET-5 example) [0.0]
ディープネットワークでは絶対的活性化は消滅や爆発的な勾配を引き起こしないため、絶対的活性化は単純なニューラルネットワークとディープニューラルネットワークの両方で使用できる。 Absolute アクティベーションに基づく LeNet のようなアーキテクチャで MNIST 問題を解くことで,予測精度を向上させることにより,ニューラルネットワーク内のトレーニングパラメータの数を著しく削減できることが示されている。
論文参考訳（メタデータ） (2023-04-23T22:17:58Z)
Globally Optimal Training of Neural Networks with Threshold Activation Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文参考訳（メタデータ） (2023-03-06T18:59:13Z)
Data-aware customization of activation functions reduces neural network error [0.35172332086962865]
本稿では,データ認識によるアクティベーション関数のカスタマイズにより,ニューラルネットワークのエラーが大幅に低減されることを示す。既に精製されたニューラルネットワークにおけるカモメの活性化機能への簡単な置換は、エラーのオーダー・オブ・マグニチュードの低減につながる可能性がある。
論文参考訳（メタデータ） (2023-01-16T23:38:37Z)
Theoretical Characterization of How Neural Network Pruning Affects its Generalization [131.1347309639727]
この研究は、異なるプルーニング率がモデルの勾配降下ダイナミクスと一般化にどのように影響するかを研究する最初の試みである。プルーニング率が一定の閾値以下である限り、勾配降下はトレーニング損失をゼロに導くことができる。より驚くべきことに、プルーニング分数が大きくなるにつれて、一般化境界はより良くなる。
論文参考訳（メタデータ） (2023-01-01T03:10:45Z)
Stochastic Adaptive Activation Function [1.9199289015460212]
本研究では,単位の位置や入力の文脈に応じて,異なるしきい値と適応的なアクティベーションを促進する,シンプルで効果的なアクティベーション関数を提案する。実験により,我々のアクティベーション関数は,多くのディープラーニングアプリケーションにおいて,より正確な予測と早期収束の利点を享受できることを示した。
論文参考訳（メタデータ） (2022-10-21T01:57:25Z)
Transformers with Learnable Activation Functions [63.98696070245065]
我々は、Rational Activation Function (RAF) を用いて、入力データに基づいてトレーニング中の最適なアクティベーション関数を学習する。 RAFは、学習されたアクティベーション関数に従って事前学習されたモデルを分析し、解釈するための新しい研究方向を開く。
論文参考訳（メタデータ） (2022-08-30T09:47:31Z)
Differentially private training of residual networks with scale normalisation [64.60453677988517]
残差ネットワーク(ResNets)におけるバッチ正規化(BN)置換層の最適選択について検討する。残差ブロックにおけるスケールミキシング現象について検討し、2つの枝の活性化を異なるスケールで行う。
論文参考訳（メタデータ） (2022-03-01T09:56:55Z)
ErfAct: Non-monotonic smooth trainable Activation Functions [1.5267236995686555]
本稿では,ErfAct-1とErfAct-2という2つの新しい非単調なスムーズなアクティベーション関数を提案する。実験の結果,提案機能はReLUやSwish,Mishなど,広く使われているアクティベーションに比べてネットワーク性能が大幅に向上していることがわかった。
論文参考訳（メタデータ） (2021-09-09T16:17:38Z)
Optimization Theory for ReLU Neural Networks Trained with Normalization Layers [82.61117235807606]
ディープニューラルネットワークの成功は、部分的には正規化レイヤの使用によるものだ。我々の分析は、正規化の導入がランドスケープをどのように変化させ、より高速なアクティベーションを実現するかを示している。
論文参考訳（メタデータ） (2020-06-11T23:55:54Z)
Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。 Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文参考訳（メタデータ） (2020-04-20T18:12:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。