論文の概要: Lipschitzness Effect of a Loss Function on Generalization Performance of
Deep Neural Networks Trained by Adam and AdamW Optimizers
- arxiv url: http://arxiv.org/abs/2303.16464v3
- Date: Tue, 22 Aug 2023 10:50:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 14:59:00.776064
- Title: Lipschitzness Effect of a Loss Function on Generalization Performance of
Deep Neural Networks Trained by Adam and AdamW Optimizers
- Title(参考訳): adamおよびadamwオプティマイザによる深層ニューラルネットワークの一般化性能に及ぼす損失関数のリプシッツ性の影響
- Authors: Mohammad Lashkari and Amin Gheibi
- Abstract要約: 我々は、損失関数のリプシッツ定数が、AdamやAdamWによって得られた出力モデルの一般化誤差を減少させる重要な要因であることを理論的に証明する。
実験により,リプシッツ定数と最大値が低い損失関数は,アダムやアダム・Wによって訓練されたモデルの一般化を改善することが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The generalization performance of deep neural networks with regard to the
optimization algorithm is one of the major concerns in machine learning. This
performance can be affected by various factors. In this paper, we theoretically
prove that the Lipschitz constant of a loss function is an important factor to
diminish the generalization error of the output model obtained by Adam or
AdamW. The results can be used as a guideline for choosing the loss function
when the optimization algorithm is Adam or AdamW. In addition, to evaluate the
theoretical bound in a practical setting, we choose the human age estimation
problem in computer vision. For assessing the generalization better, the
training and test datasets are drawn from different distributions. Our
experimental evaluation shows that the loss function with a lower Lipschitz
constant and maximum value improves the generalization of the model trained by
Adam or AdamW.
- Abstract(参考訳): 最適化アルゴリズムに関するディープニューラルネットワークの一般化性能は、機械学習における主要な関心事の一つである。
このパフォーマンスはさまざまな要因に影響を受けます。
本稿では,損失関数のリプシッツ定数がAdamやAdamWによって得られた出力モデルの一般化誤差を減少させる重要な要因であることを理論的に証明する。
この結果は、最適化アルゴリズムがAdamまたはAdamWであるときに損失関数を選択するためのガイドラインとして使用できる。
また,現実的な環境下での理論的境界を評価するために,コンピュータビジョンにおける年齢推定問題を選択する。
一般化をよりよく評価するために、トレーニングとテストデータセットは異なる分布から引き出される。
実験により,リプシッツ定数が低く最大値の損失関数はadamやadamwによって訓練されたモデルの一般化を改善できることを示した。
関連論文リスト
- Reduced Jeffries-Matusita distance: A Novel Loss Function to Improve
Generalization Performance of Deep Classification Models [0.0]
本稿では,深層分類モデルの学習における損失関数として,Reduced Jeffries-Matusitaという距離を導入する。
その結果、新しい距離測定はトレーニングプロセスを著しく安定化させ、一般化能力を高め、精度とF1スコアの指標におけるモデルの性能を向上させることを示した。
論文 参考訳(メタデータ) (2024-03-13T10:51:38Z) - AdamL: A fast adaptive gradient method incorporating loss function [1.6025685183216696]
本稿では,Adamの新たな変種であるAdamLを提案する。
我々は,Adam,EAdam,AdaBeliefと比較して,AdamLが最速収束あるいは最小目標関数値を達成することを示す。
バニラ畳み込みニューラルネットワークの場合、AdamLは他のAdamの変種とは違い、トレーニングの後半段階では学習率を手動で調整する必要がなくなる。
論文 参考訳(メタデータ) (2023-12-23T16:32:29Z) - Alternate Loss Functions for Classification and Robust Regression Can Improve the Accuracy of Artificial Neural Networks [6.452225158891343]
本稿では,ニューラルネットワークのトレーニング速度と最終的な精度が,ニューラルネットワークのトレーニングに使用する損失関数に大きく依存することを示す。
様々なベンチマークタスクの性能を著しく向上させる2つの新しい分類損失関数を提案する。
論文 参考訳(メタデータ) (2023-03-17T12:52:06Z) - Modeling Uncertain Feature Representation for Domain Generalization [49.129544670700525]
提案手法は,複数の視覚タスクにおけるネットワーク一般化能力を常に改善することを示す。
我々の手法は単純だが有効であり、トレーニング可能なパラメータや損失制約を伴わずにネットワークに容易に統合できる。
論文 参考訳(メタデータ) (2023-01-16T14:25:02Z) - Theoretical Characterization of How Neural Network Pruning Affects its
Generalization [131.1347309639727]
この研究は、異なるプルーニング率がモデルの勾配降下ダイナミクスと一般化にどのように影響するかを研究する最初の試みである。
プルーニング率が一定の閾値以下である限り、勾配降下はトレーニング損失をゼロに導くことができる。
より驚くべきことに、プルーニング分数が大きくなるにつれて、一般化境界はより良くなる。
論文 参考訳(メタデータ) (2023-01-01T03:10:45Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。
凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文 参考訳(メタデータ) (2021-08-25T17:58:21Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - $\sigma^2$R Loss: a Weighted Loss by Multiplicative Factors using
Sigmoidal Functions [0.9569316316728905]
我々は,二乗還元損失(sigma2$R損失)と呼ばれる新たな損失関数を導入する。
我々の損失は明らかな直観と幾何学的解釈を持ち、我々の提案の有効性を実験によって実証する。
論文 参考訳(メタデータ) (2020-09-18T12:34:40Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。