論文の概要: Why Rectified Power Unit Networks Fail and How to Improve It: An Effective Theory Perspective
- arxiv url: http://arxiv.org/abs/2408.02697v1
- Date: Sun, 4 Aug 2024 13:05:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-07 16:08:09.339819
- Title: Why Rectified Power Unit Networks Fail and How to Improve It: An Effective Theory Perspective
- Title(参考訳): 電力ユニットネットワークが機能しない理由と改善方法--有効理論の視点から
- Authors: Taeyoung Kim, Myungjoo Kang,
- Abstract要約: Rectified Power Unit (RePU) のアクティベーション機能は、ニューラルネットワークを構築する際に微分可能な関数であるという利点がある。
本稿では,RePUのアドバンテージを維持しつつ,その欠点を克服する新たなアクティベーション機能を提案する。
- 参考スコア(独自算出の注目度): 7.438389089520601
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Rectified Power Unit (RePU) activation functions, unlike the Rectified Linear Unit (ReLU), have the advantage of being a differentiable function when constructing neural networks. However, it can be experimentally observed when deep layers are stacked, neural networks constructed with RePU encounter critical issues. These issues include the values exploding or vanishing and failure of training. And these happen regardless of the hyperparameter initialization. From the perspective of effective theory, we aim to identify the causes of this phenomenon and propose a new activation function that retains the advantages of RePU while overcoming its drawbacks.
- Abstract(参考訳): Rectified Power Unit (RePU) のアクティベーション機能は、Rectified Linear Unit (ReLU) とは異なり、ニューラルネットワークを構築する際に微分可能な機能である。
しかし、深い層が積み重なり、RePUで構築されたニューラルネットワークが重大な問題に直面すると、実験的に観察できる。
これらの問題には、価値の爆発や消滅、トレーニングの失敗などが含まれる。
ハイパーパラメータの初期化に関わらず、これらは発生します。
有効理論の観点から、本現象の原因を特定し、その欠点を克服しつつRePUの優位性を保った新たな活性化関数を提案する。
関連論文リスト
- Physics-Informed Neural Networks: Minimizing Residual Loss with Wide Networks and Effective Activations [5.731640425517324]
特定の条件下では、広いニューラルネットワークによってPINNの残留損失を世界規模で最小化できることを示す。
良好な高次導関数を持つ活性化関数は、残留損失を最小限に抑える上で重要な役割を果たす。
確立された理論は、PINNの効果的な活性化関数の設計と選択の道を開く。
論文 参考訳(メタデータ) (2024-05-02T19:08:59Z) - Sharpness-Aware Minimization Leads to Low-Rank Features [49.64754316927016]
シャープネス認識最小化(SAM)は、ニューラルネットワークのトレーニング損失を最小限に抑える手法である。
SAMはニューラルネットワークの異なる層で発生する特徴ランクを減少させる。
我々はこの効果を理論的に確認し、深層ネットワークでも起こりうることを確認する。
論文 参考訳(メタデータ) (2023-05-25T17:46:53Z) - Benign Overfitting for Two-layer ReLU Convolutional Neural Networks [60.19739010031304]
ラベルフリップ雑音を持つ2層ReLU畳み込みニューラルネットワークを学習するためのアルゴリズム依存型リスクバウンダリを確立する。
緩やかな条件下では、勾配降下によってトレーニングされたニューラルネットワークは、ほぼゼロに近いトレーニング損失とベイズ最適試験リスクを達成できることを示す。
論文 参考訳(メタデータ) (2023-03-07T18:59:38Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Theoretical Characterization of How Neural Network Pruning Affects its
Generalization [131.1347309639727]
この研究は、異なるプルーニング率がモデルの勾配降下ダイナミクスと一般化にどのように影響するかを研究する最初の試みである。
プルーニング率が一定の閾値以下である限り、勾配降下はトレーニング損失をゼロに導くことができる。
より驚くべきことに、プルーニング分数が大きくなるにつれて、一般化境界はより良くなる。
論文 参考訳(メタデータ) (2023-01-01T03:10:45Z) - On the Activation Function Dependence of the Spectral Bias of Neural
Networks [0.0]
ニューラルネットワークのスペクトルバイアスの観点から,この現象を考察する。
本稿では,ReLUニューラルネットワークのスペクトルバイアスを有限要素法との接続を利用して理論的に説明する。
我々は,Hatアクティベーション機能を持つニューラルネットワークが勾配降下とADAMを用いて大幅に高速にトレーニングされていることを示す。
論文 参考訳(メタデータ) (2022-08-09T17:40:57Z) - Growing Cosine Unit: A Novel Oscillatory Activation Function That Can
Speedup Training and Reduce Parameters in Convolutional Neural Networks [0.1529342790344802]
畳み込みニューラルネットワークは多くの社会的に重要で経済的に重要な問題を解くことに成功した。
ディープネットワークのトレーニングを可能にする重要な発見は、Rectified Linear Unit (ReLU) アクティベーション機能の採用であった。
新しい活性化関数 C(z) = z cos z は様々なアーキテクチャ上で Sigmoids, Swish, Mish, ReLU より優れる。
論文 参考訳(メタデータ) (2021-08-30T01:07:05Z) - Activation function design for deep networks: linearity and effective
initialisation [10.108857371774977]
先行作業で特定された初期化時の2つの問題を回避する方法を検討する。
これらの問題は, 原点付近に十分に大きな線形領域を持つ活性化関数を選択することで, どちらも回避できることを示す。
論文 参考訳(メタデータ) (2021-05-17T11:30:46Z) - Adaptive Rational Activations to Boost Deep Reinforcement Learning [68.10769262901003]
我々は、合理的が適応可能なアクティベーション機能に適合する理由と、ニューラルネットワークへの含意が重要である理由を動機付けている。
人気アルゴリズムに(繰り返しの)アクティベーションを組み込むことで,アタリゲームにおいて一貫した改善がもたらされることを実証する。
論文 参考訳(メタデータ) (2021-02-18T14:53:12Z) - A Use of Even Activation Functions in Neural Networks [0.35172332086962865]
本稿では,データ構造に関する既存の知識や仮説を統合するために,独自のアクティベーション関数を構築する方法を提案する。
完全に接続されたレイヤの1つで偶発的なアクティベーション関数を使用することで、ニューラルネットワークの性能が向上することを示す。
論文 参考訳(メタデータ) (2020-11-23T20:33:13Z) - Implicit Under-Parameterization Inhibits Data-Efficient Deep
Reinforcement Learning [97.28695683236981]
さらなる勾配更新により、現在の値ネットワークの表現性が低下する。
AtariとGymのベンチマークでは、オフラインとオンラインのRL設定の両方でこの現象を実証する。
論文 参考訳(メタデータ) (2020-10-27T17:55:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。