論文の概要: New logarithmic step size for stochastic gradient descent
- arxiv url: http://arxiv.org/abs/2404.01257v1
- Date: Mon, 1 Apr 2024 17:25:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 21:36:17.724808
- Title: New logarithmic step size for stochastic gradient descent
- Title(参考訳): 確率勾配降下のための新しい対数ステップサイズ
- Authors: M. Soheil Shamaee, S. Fathi Hafshejani, Z. Saeidian,
- Abstract要約: 勾配降下(SGD)のための新しい対数ステップサイズを用いた新しい温度再起動手法を提案する。
その結果,ニューラルネットワーク(CNN)モデルを用いた場合,CIFAR100データセットの検定精度は92%向上した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel warm restart technique using a new logarithmic step size for the stochastic gradient descent (SGD) approach. For smooth and non-convex functions, we establish an $O(\frac{1}{\sqrt{T}})$ convergence rate for the SGD. We conduct a comprehensive implementation to demonstrate the efficiency of the newly proposed step size on the ~FashionMinst,~ CIFAR10, and CIFAR100 datasets. Moreover, we compare our results with nine other existing approaches and demonstrate that the new logarithmic step size improves test accuracy by $0.9\%$ for the CIFAR100 dataset when we utilize a convolutional neural network (CNN) model.
- Abstract(参考訳): 本稿では,確率勾配降下法(SGD)に新たな対数ステップサイズを適用した新しい温度再起動手法を提案する。
滑らかで非凸な函数に対しては、SGD に対する$O(\frac{1}{\sqrt{T}})$収束率を確立する。
我々は、FashionMinst、~CIFAR10、CIFAR100データセット上で、新たに提案されたステップサイズの有効性を示す包括的な実装を行う。
さらに,この結果と既存の9つのアプローチを比較し,畳み込みニューラルネットワーク(CNN)モデルを用いた場合,新たな対数ステップサイズがCIFAR100データセットの精度を$0.9\%向上することを示した。
関連論文リスト
- Modified Step Size for Enhanced Stochastic Gradient Descent: Convergence
and Experiments [0.0]
本稿では,$frac1sqrtttをベースとした変形ステップサイズを改良することにより,勾配降下法(SGD)アルゴリズムの性能向上に新たなアプローチを提案する。
提案されたステップサイズは対数的なステップ項を統合し、最終イテレーションでより小さな値を選択する。
提案手法の有効性について,FashionMNISTとARARを用いて画像分類タスクの数値実験を行った。
論文 参考訳(メタデータ) (2023-09-03T19:21:59Z) - Relationship between Batch Size and Number of Steps Needed for Nonconvex
Optimization of Stochastic Gradient Descent using Armijo Line Search [0.8158530638728501]
本研究では,SGDが深層数値線を用いた場合,他の深層学習ネットワークよりも優れた性能を示す。
その結果,バッチサイズが大きくなるにつれて,SFOに必要なステップ数を推定できることが示唆された。
論文 参考訳(メタデータ) (2023-07-25T21:59:17Z) - Dataset Distillation with Convexified Implicit Gradients [69.16247946639233]
メタ段階更新の計算に暗黙の勾配を効果的に利用できるかを示す。
さらに,凍結した有限幅ニューラルネットワーク上での学習に対応する凸近似をアルゴリズムに装備する。
論文 参考訳(メタデータ) (2023-02-13T23:53:16Z) - Towards Noise-adaptive, Problem-adaptive Stochastic Gradient Descent [7.176107039687231]
雑音に対して勾配降下(SGD)を適応させるステップサイズスキームを設計する。
我々は、Nesterov反復によるSGDの$T$反復がほぼ最適であることを示す。
他のステップサイズスキームと比較して、新しい指数的なステップサイズスキームの有効性を実証する。
論文 参考訳(メタデータ) (2021-10-21T19:22:14Z) - Exploiting Adam-like Optimization Algorithms to Improve the Performance
of Convolutional Neural Networks [82.61182037130405]
勾配降下(SGD)は深いネットワークを訓練するための主要なアプローチです。
本研究では,現在と過去の勾配の違いに基づいて,Adamに基づく変分を比較する。
resnet50を勾配降下訓練したネットワークのアンサンブルと融合実験を行った。
論文 参考訳(メタデータ) (2021-03-26T18:55:08Z) - Faster Convergence of Stochastic Gradient Langevin Dynamics for
Non-Log-Concave Sampling [110.88857917726276]
我々は,非log-concaveとなる分布のクラスからサンプリングするために,勾配ランゲヴィンダイナミクス(SGLD)の新たな収束解析を行う。
我々のアプローチの核心は、補助的時間反転型マルコフ連鎖を用いたSGLDのコンダクタンス解析である。
論文 参考訳(メタデータ) (2020-10-19T15:23:18Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - On the Almost Sure Convergence of Stochastic Gradient Descent in
Non-Convex Problems [75.58134963501094]
本稿では,勾配降下(SGD)の軌跡を解析する。
我々はSGDが厳格なステップサイズポリシーのために1ドルでサドルポイント/マニフォールドを避けることを示す。
論文 参考訳(メタデータ) (2020-06-19T14:11:26Z) - On the Promise of the Stochastic Generalized Gauss-Newton Method for
Training DNNs [37.96456928567548]
一般化されたガウスニュートン法(SGN)を用いてDNNの訓練を行う。
SGNは2次最適化法であり、効率の良い反復法であり、標準のSGDよりもはるかに少ない繰り返しを必要とすることがよく示される。
我々は,SGNが反復回数の点でSGDよりも大幅に改善されているだけでなく,実行時の点でも改善されていることを示す。
これは、私たちがTheanoディープラーニングプラットフォームで提案するSGNの効率的で使いやすく柔軟な実装によって実現されている。
論文 参考訳(メタデータ) (2020-06-03T17:35:54Z) - Carath\'eodory Sampling for Stochastic Gradient Descent [79.55586575988292]
本稿では,Tchakaloff と Carath'eodory の古典的な結果から着想を得た手法を提案する。
我々は、測定値の低減を行う降下ステップを適応的に選択する。
これをBlock Coordinate Descentと組み合わせることで、測定の削減を極めて安価に行えるようにします。
論文 参考訳(メタデータ) (2020-06-02T17:52:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。