論文の概要: Learning rate adaptive stochastic gradient descent optimization methods: numerical simulations for deep learning methods for partial differential equations and convergence analyses
- arxiv url: http://arxiv.org/abs/2406.14340v1
- Date: Thu, 20 Jun 2024 14:07:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 13:22:35.659118
- Title: Learning rate adaptive stochastic gradient descent optimization methods: numerical simulations for deep learning methods for partial differential equations and convergence analyses
- Title(参考訳): 学習速度適応確率勾配勾配勾配最適化法:偏微分方程式の深層学習法と収束解析のための数値シミュレーション
- Authors: Steffen Dereich, Arnulf Jentzen, Adrian Riekert,
- Abstract要約: 標準降下(SGD)最適化法は、学習率が0に収束しない場合、アダムのような加速および適応SGD最適化法が収束しないことが知られている。
本研究では,経験的推定に基づいて学習率を調整するSGD最適化手法の学習速度適応手法を提案し,検討する。
- 参考スコア(独自算出の注目度): 5.052293146674794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is known that the standard stochastic gradient descent (SGD) optimization method, as well as accelerated and adaptive SGD optimization methods such as the Adam optimizer fail to converge if the learning rates do not converge to zero (as, for example, in the situation of constant learning rates). Numerical simulations often use human-tuned deterministic learning rate schedules or small constant learning rates. The default learning rate schedules for SGD optimization methods in machine learning implementation frameworks such as TensorFlow and Pytorch are constant learning rates. In this work we propose and study a learning-rate-adaptive approach for SGD optimization methods in which the learning rate is adjusted based on empirical estimates for the values of the objective function of the considered optimization problem (the function that one intends to minimize). In particular, we propose a learning-rate-adaptive variant of the Adam optimizer and implement it in case of several neural network learning problems, particularly, in the context of deep learning approximation methods for partial differential equations such as deep Kolmogorov methods, physics-informed neural networks, and deep Ritz methods. In each of the presented learning problems the proposed learning-rate-adaptive variant of the Adam optimizer faster reduces the value of the objective function than the Adam optimizer with the default learning rate. For a simple class of quadratic minimization problems we also rigorously prove that a learning-rate-adaptive variant of the SGD optimization method converges to the minimizer of the considered minimization problem. Our convergence proof is based on an analysis of the laws of invariant measures of the SGD method as well as on a more general convergence analysis for SGD with random but predictable learning rates which we develop in this work.
- Abstract(参考訳): 標準確率勾配勾配法(SGD)最適化法と、アダム最適化法のような加速および適応的なSGD最適化法は、学習率が0に収束しない場合(例えば、一定の学習率の状況において)収束することができないことが知られている。
数値シミュレーションでは、人間のチューニングによる決定論的学習率のスケジュールや、小さな一定の学習率を用いることが多い。
TensorFlowやPytorchといった機械学習実装フレームワークにおけるSGD最適化メソッドのデフォルトの学習率スケジュールは、一定の学習率である。
本研究では,最適化問題の目的関数(最小化を意図した関数)の値に対する経験的推定値に基づいて学習率を調整するSGD最適化手法の学習速度適応手法を提案し,検討する。
特に,Adamオプティマイザの学習速度適応版を提案し,いくつかのニューラルネットワーク学習問題,特に深いコルモゴロフ法,物理インフォームドニューラルネットワーク,ディープリッツ法といった偏微分方程式に対するディープラーニング近似手法の文脈において実装する。
提案した学習問題のそれぞれにおいて,提案したAdamオプティマイザの学習速度適応型変種は,デフォルトの学習率でAdamオプティマイザよりも目標関数の価値を早く低減する。
2次最小化問題の単純なクラスに対しては、SGD最適化法の学習速度適応型が最小化問題の最小化に収束することを厳密に証明する。
我々の収束証明は、SGD法の不変測度法則の解析と、我々が本研究で発展させたランダムだが予測可能な学習率を持つSGDのより一般的な収束解析に基づいている。
関連論文リスト
- Unlearning as multi-task optimization: A normalized gradient difference approach with an adaptive learning rate [105.86576388991713]
正規化勾配差(NGDiff)アルゴリズムを導入し、目的間のトレードオフをよりよく制御できるようにする。
本研究では,TOFUおよびMUSEデータセットにおける最先端の未学習手法において,NGDiffの優れた性能を実証的に実証し,理論的解析を行った。
論文 参考訳(メタデータ) (2024-10-29T14:41:44Z) - A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。
これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。
我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文 参考訳(メタデータ) (2024-10-14T12:10:06Z) - Non-convergence of Adam and other adaptive stochastic gradient descent optimization methods for non-vanishing learning rates [3.6185342807265415]
ディープラーニングアルゴリズムは多くの人工知能(AI)システムにおいて重要な要素である。
ディープラーニングアルゴリズムは通常、勾配降下(SGD)最適化法によって訓練されたディープニューラルネットワークのクラスで構成されている。
論文 参考訳(メタデータ) (2024-07-11T00:10:35Z) - Training Artificial Neural Networks by Coordinate Search Algorithm [0.20971479389679332]
本稿では、ニューラルネットワークのトレーニングのための勾配自由座標探索(CS)アルゴリズムの効率的なバージョンを提案する。
提案アルゴリズムは、微分不可能なアクティベーション関数で使用することができ、多目的/マルチロス問題に適合する。
ANNの重みに対する最適値を求めることは、大規模な最適化問題である。
論文 参考訳(メタデータ) (2024-02-20T01:47:25Z) - Learning-Rate-Free Learning by D-Adaptation [18.853820404058983]
D-Adaptationは、凸リプシッツ関数に対する最適収束率を達成する学習率を自動的に設定するアプローチである。
本手法のSGDおよびAdam変種に対する広範囲な実験を行い,手作業による学習率を1ダース以上の多様な機械学習問題に対して自動でマッチングする手法を提案する。
論文 参考訳(メタデータ) (2023-01-18T19:00:50Z) - Meta-Regularization: An Approach to Adaptive Choice of the Learning Rate
in Gradient Descent [20.47598828422897]
第一次下降法における学習率の適応的選択のための新しいアプローチであるtextit-Meta-Regularizationを提案する。
本手法は,正規化項を追加して目的関数を修正し,共同処理パラメータをキャストする。
論文 参考訳(メタデータ) (2021-04-12T13:13:34Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z) - A Primer on Zeroth-Order Optimization in Signal Processing and Machine
Learning [95.85269649177336]
ZO最適化は、勾配推定、降下方向、ソリューション更新の3つの主要なステップを反復的に実行する。
我々は,ブラックボックス深層学習モデルによる説明文の評価や生成,効率的なオンラインセンサ管理など,ZO最適化の有望な応用を実証する。
論文 参考訳(メタデータ) (2020-06-11T06:50:35Z) - Learning to be Global Optimizer [28.88646928299302]
いくつかのベンチマーク関数に対して最適なネットワークとエスケープ能力アルゴリズムを学習する。
学習したアルゴリズムは、よく知られた古典最適化アルゴリズムよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2020-03-10T03:46:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。