論文の概要: Activation function design for deep networks: linearity and effective
initialisation
- arxiv url: http://arxiv.org/abs/2105.07741v1
- Date: Mon, 17 May 2021 11:30:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-18 22:51:17.526695
- Title: Activation function design for deep networks: linearity and effective
initialisation
- Title(参考訳): 深層ネットワークの活性化関数設計:線形性と有効初期化
- Authors: Michael Murray, Vinayak Abrol, Jared Tanner
- Abstract要約: 先行作業で特定された初期化時の2つの問題を回避する方法を検討する。
これらの問題は, 原点付近に十分に大きな線形領域を持つ活性化関数を選択することで, どちらも回避できることを示す。
- 参考スコア(独自算出の注目度): 10.108857371774977
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The activation function deployed in a deep neural network has great influence
on the performance of the network at initialisation, which in turn has
implications for training. In this paper we study how to avoid two problems at
initialisation identified in prior works: rapid convergence of pairwise input
correlations, and vanishing and exploding gradients. We prove that both these
problems can be avoided by choosing an activation function possessing a
sufficiently large linear region around the origin, relative to the bias
variance $\sigma_b^2$ of the network's random initialisation. We demonstrate
empirically that using such activation functions leads to tangible benefits in
practice, both in terms test and training accuracy as well as training time.
Furthermore, we observe that the shape of the nonlinear activation outside the
linear region appears to have a relatively limited impact on training. Finally,
our results also allow us to train networks in a new hyperparameter regime,
with a much larger bias variance than has previously been possible.
- Abstract(参考訳): ディープニューラルネットワークにデプロイされるアクティベーション関数は、初期化時のネットワーク性能に大きな影響を与え、トレーニングに影響を及ぼす。
本稿では,先行研究で確認された初期化における2つの問題,すなわち,ペアの入力相関の急速な収束と,勾配の消滅と爆発の防止について検討する。
これらの問題は、ネットワークのランダム初期化のバイアス分散$\sigma_b^2$に対して、原点付近に十分に大きな線形領域を持つ活性化関数を選択することで回避できることを示す。
このようなアクティベーション関数の使用は、テストとトレーニングの正確さ、トレーニング時間の両方において、実際に有意義なメリットをもたらすことを実証的に実証する。
さらに, 線形領域外における非線形活性化の形状は, トレーニングに比較的限られた影響を及ぼすと考えられる。
最後に、我々の結果は、以前よりもはるかに大きなバイアス分散を持つ、新しいハイパーパラメータレジームでネットワークをトレーニングすることを可能にします。
関連論文リスト
- Compelling ReLU Networks to Exhibit Exponentially Many Linear Regions at Initialization and During Training [1.7205106391379021]
ReLUアクティベーションを持つニューラルネットワークは、断片的線形関数の合成と見なすことができる。
我々は,ネットワークに複数の線形領域を指数関数的に表示させる新たなトレーニング戦略を導入する。
このアプローチにより、無作為な関数よりも数桁精度の高い凸1次元関数の近似を学習することができる。
論文 参考訳(メタデータ) (2023-11-29T19:09:48Z) - ENN: A Neural Network with DCT Adaptive Activation Functions [2.2713084727838115]
離散コサイン変換(DCT)を用いて非線形活性化関数をモデル化する新しいモデルであるExpressive Neural Network(ENN)を提案する。
このパラメータ化は、トレーニング可能なパラメータの数を低く保ち、勾配ベースのスキームに適合し、異なる学習タスクに適応する。
ENNのパフォーマンスは、いくつかのシナリオにおいて40%以上の精度のギャップを提供する、アートベンチマークの状態を上回ります。
論文 参考訳(メタデータ) (2023-07-02T21:46:30Z) - Promises and Pitfalls of the Linearized Laplace in Bayesian Optimization [73.80101701431103]
線形化ラプラス近似(LLA)はベイズニューラルネットワークの構築に有効で効率的であることが示されている。
ベイズ最適化におけるLLAの有用性について検討し,その性能と柔軟性を強調した。
論文 参考訳(メタデータ) (2023-04-17T14:23:43Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Nonlinear Advantage: Trained Networks Might Not Be As Complex as You
Think [0.0]
性能崩壊前の線形性に対するネットワーク機能をいかに単純化できるかを考察する。
訓練後, 高い性能を維持しつつ, かなりの数の非線形ユニットを線形化できることが判明した。
空間的圧力下では、残りの非線形ユニットは異なる構造に整理され、ほぼ一定の有効深さと幅のコアネットを形成する。
論文 参考訳(メタデータ) (2022-11-30T17:24:14Z) - Wasserstein Flow Meets Replicator Dynamics: A Mean-Field Analysis of Representation Learning in Actor-Critic [137.04558017227583]
ニューラルネットワークによって強化されたアクター・クリティカル(AC)アルゴリズムは、近年、かなりの成功を収めている。
我々は,特徴量に基づくニューラルACの進化と収束について,平均場の観点から考察する。
神経性交流は,大域的最適政策をサブ線形速度で求める。
論文 参考訳(メタデータ) (2021-12-27T06:09:50Z) - Going Beyond Linear RL: Sample Efficient Neural Function Approximation [76.57464214864756]
2層ニューラルネットワークによる関数近似について検討する。
この結果は線形(あるいは可溶性次元)法で達成できることを大幅に改善する。
論文 参考訳(メタデータ) (2021-07-14T03:03:56Z) - On the Explicit Role of Initialization on the Convergence and Implicit
Bias of Overparametrized Linear Networks [1.0323063834827415]
勾配流下で訓練された単層線形ネットワークの新たな解析法を提案する。
正方形損失はその最適値に指数関数的に収束することを示す。
我々は、トレーニングされたネットワークとmin-norm解の間の距離に基づいて、新しい非漸近上界を導出する。
論文 参考訳(メタデータ) (2021-05-13T15:13:51Z) - Feature Purification: How Adversarial Training Performs Robust Deep
Learning [66.05472746340142]
ニューラルネットワークのトレーニングプロセス中に隠れた重みに、特定の小さな密度の混合物が蓄積されることが、敵の例の存在の原因の1つであることを示す。
この原理を説明するために、CIFAR-10データセットの両実験と、ある自然な分類タスクに対して、ランダムな勾配勾配勾配を用いた2層ニューラルネットワークをトレーニングすることを証明する理論的結果を示す。
論文 参考訳(メタデータ) (2020-05-20T16:56:08Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。