論文の概要: Incorporating the Barzilai-Borwein Adaptive Step Size into Sugradient
Methods for Deep Network Training
- arxiv url: http://arxiv.org/abs/2205.13711v1
- Date: Fri, 27 May 2022 02:12:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-30 14:49:25.030402
- Title: Incorporating the Barzilai-Borwein Adaptive Step Size into Sugradient
Methods for Deep Network Training
- Title(参考訳): Barzilai-Borwein適応ステップサイズを段階的に導入したDeep Network Training
- Authors: Antonio Robles-Kelly and Asef Nazari
- Abstract要約: 準ニュートン法に基づくセカント方程式に2点近似を用いて学習率を適用する。
本手法は,広く利用可能なデータセットの標準例ネットワークアーキテクチャを用いて評価し,文献の他の代替案と比較する。
- 参考スコア(独自算出の注目度): 3.8762085568003406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we incorporate the Barzilai-Borwein step size into gradient
descent methods used to train deep networks. This allows us to adapt the
learning rate using a two-point approximation to the secant equation which
quasi-Newton methods are based upon. Moreover, the adaptive learning rate
method presented here is quite general in nature and can be applied to widely
used gradient descent approaches such as Adagrad and RMSprop. We evaluate our
method using standard example network architectures on widely available
datasets and compare against alternatives elsewhere in the literature. In our
experiments, our adaptive learning rate shows a smoother and faster convergence
than that exhibited by the alternatives, with better or comparable performance.
- Abstract(参考訳): 本稿では,barzilai-borweinのステップサイズを,ディープネットワークのトレーニングに用いる勾配降下法に組み込む。
これにより、準ニュートン法に基づくセカント方程式に2点近似を用いて学習率を適用することができる。
さらに, 適応学習率法は自然界において非常に一般的であり, Adagrad や RMSprop などの勾配降下法にも適用可能である。
本手法は,広く利用可能なデータセットの標準例ネットワークアーキテクチャを用いて評価し,文献の他の代替案と比較する。
私たちの実験では、適応学習速度は、代替品よりもスムーズで高速な収束を示し、優れた性能と同等の性能を示しました。
関連論文リスト
- Interpreting Adaptive Gradient Methods by Parameter Scaling for
Learning-Rate-Free Optimization [14.009179786857802]
深層ニューラルネットワークの学習に使用される適応的勾配法について,学習率を推定する上での課題に対処する。
学習速度のないいくつかのアプローチが提案されているが、それらは典型的には最も急降下に適したものである。
本稿では,適応勾配法をパラメータスケールネットワークに適用した最も急勾配と解釈する。
論文 参考訳(メタデータ) (2024-01-06T15:45:29Z) - Domain Generalization Guided by Gradient Signal to Noise Ratio of
Parameters [69.24377241408851]
ソースドメインへのオーバーフィッティングは、ディープニューラルネットワークの勾配に基づくトレーニングにおいて一般的な問題である。
本稿では,ネットワークパラメータの勾配-信号-雑音比(GSNR)を選択することを提案する。
論文 参考訳(メタデータ) (2023-10-11T10:21:34Z) - Angle based dynamic learning rate for gradient descent [2.5077510176642805]
分類タスクにおける勾配に基づく降下法を適応的に学習する手法を提案する。
勾配に基づく項を期待することで適応学習率を選択する従来の手法の代わりに、現在の勾配と新しい勾配の間の角度を用いる。
提案手法は,ほとんどのデータセットにおいて,最も精度の高い手法であることがわかった。
論文 参考訳(メタデータ) (2023-04-20T16:55:56Z) - FedDA: Faster Framework of Local Adaptive Gradient Methods via Restarted
Dual Averaging [104.41634756395545]
フェデレートラーニング(Federated Learning, FL)は、大規模な分散データに取り組むための新たな学習パラダイムである。
局所適応勾配法のための新しいフレームワークである textbfFedDA を提案する。
textbfFedDA-MVR は適応FLアルゴリズムとしては初めてこの速度を実現することを示す。
論文 参考訳(メタデータ) (2023-02-13T05:10:30Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Penalizing Gradient Norm for Efficiently Improving Generalization in
Deep Learning [13.937644559223548]
ディープニューラルネットワーク(DNN)をうまく一般化するためのトレーニング方法が、ディープラーニングの中心的な関心事である。
最適化時の損失関数の勾配ノルムをペナルティ化することにより,モデル一般化を効果的に向上する手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T02:03:45Z) - Adaptive Learning Rate and Momentum for Training Deep Neural Networks [0.0]
本研究では,非線形共役勾配(CG)フレームワークによる高速トレーニング手法を開発した。
画像分類データセットの実験により,本手法は他の局所解法よりも高速な収束が得られることが示された。
論文 参考訳(メタデータ) (2021-06-22T05:06:56Z) - Analytically Tractable Bayesian Deep Q-Learning [0.0]
我々は時間差Q-ラーニングフレームワークを適応させ、抽出可能な近似ガウス推論(TAGI)と互換性を持たせる。
我々は,TAGIがバックプロパゲーション学習ネットワークに匹敵する性能に到達できることを実証した。
論文 参考訳(メタデータ) (2021-06-21T13:11:52Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z) - Interpolation Technique to Speed Up Gradients Propagation in Neural ODEs [71.26657499537366]
本稿では,ニューラルネットワークモデルにおける勾配の効率的な近似法を提案する。
我々は、分類、密度推定、推論近似タスクにおいて、ニューラルODEをトレーニングするリバースダイナミック手法と比較する。
論文 参考訳(メタデータ) (2020-03-11T13:15:57Z) - Disentangling Adaptive Gradient Methods from Learning Rates [65.0397050979662]
適応的勾配法が学習率のスケジュールとどのように相互作用するかを、より深く検討する。
我々は、更新の規模をその方向から切り離す"グラフティング"実験を導入する。
適応勾配法の一般化に関する経験的および理論的考察を示す。
論文 参考訳(メタデータ) (2020-02-26T21:42:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。