論文の概要: Stochastic gradient descent with random learning rate
- arxiv url: http://arxiv.org/abs/2003.06926v4
- Date: Sun, 11 Oct 2020 13:42:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 08:36:30.424735
- Title: Stochastic gradient descent with random learning rate
- Title(参考訳): ランダム学習率による確率勾配降下
- Authors: Daniele Musso
- Abstract要約: 本稿では,一様分散ランダム学習率でニューラルネットワークを最適化することを提案する。
ランダムな学習率プロトコルを周期的および定常的なプロトコルと比較することにより、ランダムな選択は、一般に小規模学習率体系における最良の戦略であると示唆する。
我々は、MNISTデータセットとCIFAR10データセットの画像分類のための、浅い、完全に接続された、深い、畳み込みニューラルネットワークの実験を通じて、支持エビデンスを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose to optimize neural networks with a uniformly-distributed random
learning rate. The associated stochastic gradient descent algorithm can be
approximated by continuous stochastic equations and analyzed within the
Fokker-Planck formalism. In the small learning rate regime, the training
process is characterized by an effective temperature which depends on the
average learning rate, the mini-batch size and the momentum of the optimization
algorithm. By comparing the random learning rate protocol with cyclic and
constant protocols, we suggest that the random choice is generically the best
strategy in the small learning rate regime, yielding better regularization
without extra computational cost. We provide supporting evidence through
experiments on both shallow, fully-connected and deep, convolutional neural
networks for image classification on the MNIST and CIFAR10 datasets.
- Abstract(参考訳): 我々は一様分散ランダム学習率でニューラルネットワークを最適化することを提案する。
関連する確率勾配降下アルゴリズムは連続確率方程式によって近似することができ、フォッカー・プランク形式の中で解析される。
学習速度の小さい環境では、平均学習率、ミニバッチサイズ、最適化アルゴリズムの運動量に依存する有効温度によって学習過程が特徴づけられる。
ランダムな学習率プロトコルを周期的かつ定常的なプロトコルと比較することにより、ランダムな選択は一般に小さな学習率体系の最良の戦略であり、余分な計算コストを伴わずにより良い正規化が得られることを示唆する。
mnistおよびcifar10データセット上の画像分類のための、浅層、完全接続、深層、畳み込みニューラルネットワークの両方の実験を通じて、証拠を提供する。
関連論文リスト
- Cyclical Log Annealing as a Learning Rate Scheduler [0.0]
学習率スケジューラ(英: learning rate scheduler)とは、モデル学習過程において、様々な探索ステップの指示セットである。
本稿では,降下勾配を通したステップサイズを過度に再起動する手法を提案する。
論文 参考訳(メタデータ) (2024-03-13T14:07:20Z) - Stochastic Gradient Descent for Gaussian Processes Done Right [86.83678041846971]
emphdone right -- 最適化とカーネルコミュニティからの具体的な洞察を使用するという意味で -- が、勾配降下は非常に効果的であることを示している。
本稿では,直感的に設計を記述し,設計選択について説明する。
本手法は,分子結合親和性予測のための最先端グラフニューラルネットワークと同程度にガウス過程の回帰を配置する。
論文 参考訳(メタデータ) (2023-10-31T16:15:13Z) - Online Network Source Optimization with Graph-Kernel MAB [62.6067511147939]
大規模ネットワークにおける最適なソース配置をオンラインで学習するためのグラフカーネルマルチアームバンディットアルゴリズムであるGrab-UCBを提案する。
適応グラフ辞書モデルを用いて,ネットワークプロセスを記述する。
我々は、ネットワークパラメータに依存する性能保証を導出し、シーケンシャルな意思決定戦略の学習曲線にさらに影響を及ぼす。
論文 参考訳(メタデータ) (2023-07-07T15:03:42Z) - Low-rank extended Kalman filtering for online learning of neural
networks from streaming data [71.97861600347959]
非定常データストリームから非線形関数のパラメータを推定するための効率的なオンライン近似ベイズ推定アルゴリズムを提案する。
この方法は拡張カルマンフィルタ (EKF) に基づいているが、新しい低ランク+斜角行列分解法を用いている。
変分推論に基づく手法とは対照的に,本手法は完全に決定論的であり,ステップサイズチューニングを必要としない。
論文 参考訳(メタデータ) (2023-05-31T03:48:49Z) - Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z) - Accelerated Almost-Sure Convergence Rates for Nonconvex Stochastic
Gradient Descent using Stochastic Learning Rates [0.0]
本稿では、グラディエント・ダイアンスの勾配空間収束率のほぼ全周収束率を用いて、大規模最適化問題を解く。
特に、その学習速度は乗算学習率を備えている。
論文 参考訳(メタデータ) (2021-10-25T04:27:35Z) - Stochastic Learning Rate Optimization in the Stochastic Approximation
and Online Learning Settings [0.0]
本研究では、最適化アルゴリズムの学習率に乗法性を適用し、学習速度スキームを創出する。
本研究では,この学習率スキームを備えたグラディエントDescentの理論的収束結果を示す。
論文 参考訳(メタデータ) (2021-10-20T18:10:03Z) - A Simple and Efficient Stochastic Rounding Method for Training Neural
Networks in Low Precision [0.0]
ニューラルネットワーク(NN)のトレーニングにおいて,従来型ラウンドリング(CSR)が広く用いられている
本稿では, 簡易かつ効率的な丸め方式を提案する。
提案手法は16ビット固定点数によるnnの訓練に成功している。
論文 参考訳(メタデータ) (2021-03-24T18:47:03Z) - Learning Rates as a Function of Batch Size: A Random Matrix Theory
Approach to Neural Network Training [2.9649783577150837]
スパイクされたフィールド依存ランダム行列理論を用いて, ニューラルネットの損失景観に及ぼすミニバッチの影響について検討した。
我々は、スムーズで非ニュートンディープニューラルネットワークのための最大降下および適応訓練規則の解析式を導出する。
VGG/ResNetおよびImageNetデータセットのクレームを検証する。
論文 参考訳(メタデータ) (2020-06-16T11:55:45Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z) - Large Batch Training Does Not Need Warmup [111.07680619360528]
大きなバッチサイズを使用してディープニューラルネットワークをトレーニングすることは、有望な結果を示し、多くの現実世界のアプリケーションに利益をもたらしている。
本稿では,大規模バッチ学習のための全層適応レートスケーリング(CLARS)アルゴリズムを提案する。
分析に基づいて,このギャップを埋め,3つの一般的な大規模バッチトレーニング手法の理論的洞察を提示する。
論文 参考訳(メタデータ) (2020-02-04T23:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。