論文の概要: The Golden Ratio of Learning and Momentum
- arxiv url: http://arxiv.org/abs/2006.04751v1
- Date: Mon, 8 Jun 2020 17:08:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 23:57:30.539053
- Title: The Golden Ratio of Learning and Momentum
- Title(参考訳): 学習と運動量の黄金比
- Authors: Stefan Jaeger
- Abstract要約: 本稿では,シナプスにおけるニューラル信号処理による情報理論的損失関数を提案する。
すべての結果は、損失、学習率、モーメントが密接に関連していることを示している。
- 参考スコア(独自算出の注目度): 0.5076419064097732
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gradient descent has been a central training principle for artificial neural
networks from the early beginnings to today's deep learning networks. The most
common implementation is the backpropagation algorithm for training
feed-forward neural networks in a supervised fashion. Backpropagation involves
computing the gradient of a loss function, with respect to the weights of the
network, to update the weights and thus minimize loss. Although the mean square
error is often used as a loss function, the general stochastic gradient descent
principle does not immediately connect with a specific loss function. Another
drawback of backpropagation has been the search for optimal values of two
important training parameters, learning rate and momentum weight, which are
determined empirically in most systems. The learning rate specifies the step
size towards a minimum of the loss function when following the gradient, while
the momentum weight considers previous weight changes when updating current
weights. Using both parameters in conjunction with each other is generally
accepted as a means to improving training, although their specific values do
not follow immediately from standard backpropagation theory. This paper
proposes a new information-theoretical loss function motivated by neural signal
processing in a synapse. The new loss function implies a specific learning rate
and momentum weight, leading to empirical parameters often used in practice.
The proposed framework also provides a more formal explanation of the momentum
term and its smoothing effect on the training process. All results taken
together show that loss, learning rate, and momentum are closely connected. To
support these theoretical findings, experiments for handwritten digit
recognition show the practical usefulness of the proposed loss function and
training parameters.
- Abstract(参考訳): 勾配降下は、人工知能ニューラルネットワークの初期から今日のディープラーニングネットワークにおける中心的なトレーニング原則である。
最も一般的な実装は、フィードフォワードニューラルネットワークを教師付きでトレーニングするためのバックプロパゲーションアルゴリズムである。
バックプロパゲーションでは、ネットワークの重みに関して損失関数の勾配を計算し、重みを更新し、損失を最小限に抑える。
平均二乗誤差は損失関数としてしばしば用いられるが、一般確率勾配降下原理は特定の損失関数とすぐには関連しない。
他のバックプロパゲーションの欠点は、多くのシステムで経験的に決定される2つの重要なトレーニングパラメータ、学習速度と運動量重みの最適値の探索である。
学習速度は、勾配に従うときの損失関数の最小値に対するステップサイズを規定する一方、運動量重みは、現在の重みを更新するときの以前の重み変化を考慮する。
両方のパラメータを相互に併用することは、トレーニングを改善する手段として一般的に受け入れられるが、それらの特定の値は標準のバックプロパゲーション理論からすぐには従わない。
本稿では,シナプスにおけるニューラル信号処理による情報理論的損失関数を提案する。
新しい損失関数は特定の学習率と運動量重みを示し、実際によく使われる経験的パラメータに繋がる。
提案フレームワークは,運動量項とその学習過程に対する平滑化効果について,より公式な説明を提供する。
すべての結果は、損失、学習率、モーメントが密接に関連していることを示している。
これらの理論的な知見を支持するために, 手書き文字認識実験では, 提案する損失関数と訓練パラメータの実用的有用性を示す。
関連論文リスト
- On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Learning fixed points of recurrent neural networks by reparameterizing
the network model [0.0]
計算神経科学において、リカレントニューラルネットワークの固定点は、静的またはゆっくりと変化する刺激に対する神経反応をモデル化するために一般的に用いられる。
自然なアプローチは、シナプス重みのユークリッド空間上の勾配勾配を利用することである。
この手法は, 損失面に生じる特異点により, 学習性能が低下する可能性があることを示す。
論文 参考訳(メタデータ) (2023-07-13T13:09:11Z) - Weight Compander: A Simple Weight Reparameterization for Regularization [5.744133015573047]
我々は、ディープニューラルネットワークの一般化を改善するための新しい効果的な方法であるウェイトコンパンダを導入する。
標準正規化法に加えて重みコンパンダを用いることで,ニューラルネットワークの性能が向上することを示す。
論文 参考訳(メタデータ) (2023-06-29T14:52:04Z) - Alternate Loss Functions for Classification and Robust Regression Can Improve the Accuracy of Artificial Neural Networks [6.452225158891343]
本稿では,ニューラルネットワークのトレーニング速度と最終的な精度が,ニューラルネットワークのトレーニングに使用する損失関数に大きく依存することを示す。
様々なベンチマークタスクの性能を著しく向上させる2つの新しい分類損失関数を提案する。
論文 参考訳(メタデータ) (2023-03-17T12:52:06Z) - Online Loss Function Learning [13.744076477599707]
ロス関数学習は、機械学習モデルの損失関数を設計するタスクを自動化することを目的としている。
基本モデルパラメータへの更新毎に,損失関数をオンラインに適応的に更新する新しい損失関数学習手法を提案する。
論文 参考訳(メタデータ) (2023-01-30T19:22:46Z) - Theoretical Characterization of How Neural Network Pruning Affects its
Generalization [131.1347309639727]
この研究は、異なるプルーニング率がモデルの勾配降下ダイナミクスと一般化にどのように影響するかを研究する最初の試みである。
プルーニング率が一定の閾値以下である限り、勾配降下はトレーニング損失をゼロに導くことができる。
より驚くべきことに、プルーニング分数が大きくなるにつれて、一般化境界はより良くなる。
論文 参考訳(メタデータ) (2023-01-01T03:10:45Z) - Understanding Square Loss in Training Overparametrized Neural Network
Classifiers [31.319145959402462]
過度にパラメータ化されたニューラルネットワークでどのように機能するかを体系的に検討することにより、分類における二乗損失の理論的理解に寄与する。
クラスが分離可能か否かに応じて2つのケースを考慮する。一般的な非分離可能の場合、誤分類率と校正誤差の両方について、高速収束率が確立される。
結果として得られるマージンはゼロから下界であることが証明され、ロバスト性の理論的な保証を提供する。
論文 参考訳(メタデータ) (2021-12-07T12:12:30Z) - MTAdam: Automatic Balancing of Multiple Training Loss Terms [95.99508450208813]
複数の損失項を扱うためにAdam最適化アルゴリズムを一般化する。
新たな手法によるトレーニングは, 最適初期損失重み付けの早期回復につながることを示す。
論文 参考訳(メタデータ) (2020-06-25T20:27:27Z) - Feature Purification: How Adversarial Training Performs Robust Deep
Learning [66.05472746340142]
ニューラルネットワークのトレーニングプロセス中に隠れた重みに、特定の小さな密度の混合物が蓄積されることが、敵の例の存在の原因の1つであることを示す。
この原理を説明するために、CIFAR-10データセットの両実験と、ある自然な分類タスクに対して、ランダムな勾配勾配勾配を用いた2層ニューラルネットワークをトレーニングすることを証明する理論的結果を示す。
論文 参考訳(メタデータ) (2020-05-20T16:56:08Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。