論文の概要: Unintended Effects on Adaptive Learning Rate for Training Neural Network
with Output Scale Change
- arxiv url: http://arxiv.org/abs/2103.03466v1
- Date: Fri, 5 Mar 2021 04:19:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-08 15:00:45.603271
- Title: Unintended Effects on Adaptive Learning Rate for Training Neural Network
with Output Scale Change
- Title(参考訳): 出力スケール変化を伴うニューラルネットワーク学習における適応学習率に対する意図しない効果
- Authors: Ryuichi Kanoh, Mahito Sugiyama
- Abstract要約: このようなスケーリング係数と適応学習率の組み合わせが、ニューラルネットワークのトレーニング行動に強く影響を与えることを示す。
具体的には、いくつかのスケーリング設定では、適応学習率の効果が失われるか、あるいはスケーリング係数の影響を強く受けている。
本稿では,最適化アルゴリズムの修正を行い,適応学習速度最適化と簡易勾配降下の差を示す。
- 参考スコア(独自算出の注目度): 8.020742121274417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A multiplicative constant scaling factor is often applied to the model output
to adjust the dynamics of neural network parameters. This has been used as one
of the key interventions in an empirical study of lazy and active behavior.
However, we show that the combination of such scaling and a commonly used
adaptive learning rate optimizer strongly affects the training behavior of the
neural network. This is problematic as it can cause \emph{unintended behavior}
of neural networks, resulting in the misinterpretation of experimental results.
Specifically, for some scaling settings, the effect of the adaptive learning
rate disappears or is strongly influenced by the scaling factor. To avoid the
unintended effect, we present a modification of an optimization algorithm and
demonstrate remarkable differences between adaptive learning rate optimization
and simple gradient descent, especially with a small ($<1.0$) scaling factor.
- Abstract(参考訳): 乗法定数スケーリング係数は、ニューラルネットワークパラメータのダイナミクスを調整するためにモデル出力にしばしば適用される。
これは怠け者および活動的な行為の実証的な研究の重要な介入の1つとして使用されました。
しかし,このようなスケーリングと適応学習率最適化器の組み合わせは,ニューラルネットワークの学習行動に強く影響を及ぼすことを示す。
これは、ニューラルネットワークの \emph{unintended behavior}を引き起こす可能性があるため問題であり、実験結果の誤解を招く。
具体的には、いくつかのスケーリング設定では、適応学習率の効果が失われるか、あるいはスケーリング係数の影響を強く受けている。
意図しない効果を避けるため,最適化アルゴリズムの修正を行い,適応学習速度の最適化と簡単な勾配降下,特に小さな (<1.0$) スケーリング係数の差を示す。
関連論文リスト
- Adaptive multiple optimal learning factors for neural network training [0.0]
提案した適応多重最適学習因子(AMOLF)アルゴリズムは,乗算毎の誤差変化に基づいて動的に学習因子数を調整する。
この論文は、目的関数の曲率に基づいて重みをグループ化する手法や、大きなヘッセン行列を圧縮する手法も導入している。
論文 参考訳(メタデータ) (2024-06-04T21:18:24Z) - Task adaption by biologically inspired stochastic comodulation [8.59194778459436]
我々は、利得変調による微調整畳み込みネットワークが、決定論的利得変調を改善することを示す。
この結果から,コモディレーション表現はマルチタスク学習における学習効率と性能を向上させることが示唆された。
論文 参考訳(メタデータ) (2023-11-25T15:21:03Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - RankNEAT: Outperforming Stochastic Gradient Search in Preference
Learning Tasks [2.570570340104555]
勾配降下 (SGD) はニューラルネットワークのトレーニングのための最適化手法である。
本稿では,拡張トポロジの神経進化を通じてランク付けを学習するRanneATアルゴリズムを提案する。
以上の結果から,RanneATは選好学習の代替として,有効かつ効率のよい進化的手法であることが示唆された。
論文 参考訳(メタデータ) (2022-04-14T12:01:00Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - Influence Functions in Deep Learning Are Fragile [52.31375893260445]
影響関数は、テスト時間予測におけるサンプルの効果を近似する。
影響評価は浅いネットワークでは かなり正確です
ヘッセン正則化は、高品質な影響推定を得るために重要である。
論文 参考訳(メタデータ) (2020-06-25T18:25:59Z) - Advantages of biologically-inspired adaptive neural activation in RNNs
during learning [10.357949759642816]
生体ニューロンの入力周波数応答曲線にインスパイアされた非線形活性化関数のパラメトリックファミリーを導入する。
アクティベーション適応はタスク固有のソリューションを提供し、場合によっては学習速度と性能の両方を改善する。
論文 参考訳(メタデータ) (2020-06-22T13:49:52Z) - The large learning rate phase of deep learning: the catapult mechanism [50.23041928811575]
問題解決可能なトレーニングダイナミクスを備えたニューラルネットワークのクラスを提示する。
現実的なディープラーニング環境において,モデルの予測とトレーニングのダイナミクスとの間には,よい一致がある。
我々の結果は、異なる学習率でトレーニングされたモデルの特性に光を当てたと信じています。
論文 参考訳(メタデータ) (2020-03-04T17:52:48Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。