論文の概要: Statistical Adaptive Stochastic Gradient Methods
- arxiv url: http://arxiv.org/abs/2002.10597v1
- Date: Tue, 25 Feb 2020 00:04:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 20:44:39.071896
- Title: Statistical Adaptive Stochastic Gradient Methods
- Title(参考訳): 統計的適応確率勾配法
- Authors: Pengchuan Zhang, Hunter Lang, Qiang Liu and Lin Xiao
- Abstract要約: 本研究では、勾配法における学習率(ステップサイズ)を自動的にスケジューリングするSALSAと呼ばれる統計的適応手法を提案する。
SALSAはまずスムーズな線探索法を用いて学習率を徐々に増加させ、その後自動的に学習率を低下させる。
本発明の学習率低下方法は、一定のステップサイズを使用すると、ステーションスイッチを検出するための新しい統計テストに基づいている。
- 参考スコア(独自算出の注目度): 34.859895010071234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a statistical adaptive procedure called SALSA for automatically
scheduling the learning rate (step size) in stochastic gradient methods. SALSA
first uses a smoothed stochastic line-search procedure to gradually increase
the learning rate, then automatically switches to a statistical method to
decrease the learning rate. The line search procedure ``warms up'' the
optimization process, reducing the need for expensive trial and error in
setting an initial learning rate. The method for decreasing the learning rate
is based on a new statistical test for detecting stationarity when using a
constant step size. Unlike in prior work, our test applies to a broad class of
stochastic gradient algorithms without modification. The combined method is
highly robust and autonomous, and it matches the performance of the best
hand-tuned learning rate schedules in our experiments on several deep learning
tasks.
- Abstract(参考訳): 本研究では,確率勾配法における学習率(ステップサイズ)を自動的にスケジューリングするSALSAという統計的適応手法を提案する。
SALSAはまず、スムーズな確率線探索法を用いて学習率を徐々に増加させ、その後自動的に統計的手法に切り替えて学習率を低下させる。
行探索手順は、最適化プロセスの ``warms up' であり、初期学習率の設定において、高価な試行とエラーを少なくする。
一定のステップサイズを用いる場合の定常性を検出するための新しい統計テストに基づいて学習率を低減させる。
先行研究とは異なり、我々のテストは修正せずに幅広い確率勾配アルゴリズムに適用できる。
この組み合わせ手法は非常に堅牢で自律的であり、いくつかの深層学習タスクで行った実験において、最高の手調学習率スケジュールのパフォーマンスに合致する。
関連論文リスト
- Adaptive Rentention & Correction for Continual Learning [114.5656325514408]
連続学習における一般的な問題は、最新のタスクに対する分類層のバイアスである。
アダプティブ・リテンション・アンド・コレクション (ARC) のアプローチを例に挙げる。
ARCはCIFAR-100とImagenet-Rのデータセットで平均2.7%と2.6%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2024-05-23T08:43:09Z) - Low-rank extended Kalman filtering for online learning of neural
networks from streaming data [71.97861600347959]
非定常データストリームから非線形関数のパラメータを推定するための効率的なオンライン近似ベイズ推定アルゴリズムを提案する。
この方法は拡張カルマンフィルタ (EKF) に基づいているが、新しい低ランク+斜角行列分解法を用いている。
変分推論に基づく手法とは対照的に,本手法は完全に決定論的であり,ステップサイズチューニングを必要としない。
論文 参考訳(メタデータ) (2023-05-31T03:48:49Z) - Learning-Rate-Free Learning by D-Adaptation [18.853820404058983]
D-Adaptationは、凸リプシッツ関数に対する最適収束率を達成する学習率を自動的に設定するアプローチである。
本手法のSGDおよびAdam変種に対する広範囲な実験を行い,手作業による学習率を1ダース以上の多様な機械学習問題に対して自動でマッチングする手法を提案する。
論文 参考訳(メタデータ) (2023-01-18T19:00:50Z) - Continuous-Time Meta-Learning with Forward Mode Differentiation [65.26189016950343]
本稿では,勾配ベクトル場の力学に適応するメタ学習アルゴリズムであるContinuous Meta-Learning(COMLN)を紹介する。
学習プロセスをODEとして扱うことは、軌跡の長さが現在連続しているという顕著な利点を提供する。
本稿では,実行時とメモリ使用時の効率を実証的に示すとともに,いくつかの画像分類問題に対して有効性を示す。
論文 参考訳(メタデータ) (2022-03-02T22:35:58Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Training Aware Sigmoidal Optimizer [2.99368851209995]
Aware Sigmoidal関数をトレーニングすると、ローカルミニマよりもはるかにサドルロスの風景が表示されます。
本研究では,2相自動学習率スケジュールからなるTASO(Training Aware Sigmoidal Function)を提案する。
提案手法をAdam、RMS、Adagradなどの一般的な適応学習率スケジュールと比較した。
論文 参考訳(メタデータ) (2021-02-17T12:00:46Z) - Automatic Tuning of Stochastic Gradient Descent with Bayesian
Optimisation [8.340191147575307]
我々は,潜在ガウス過程と自己回帰的定式化に基づく,オプティマイザのトレースに対する元の確率モデルを導入する。
新しい学習率値によって引き起こされる行動の急激な変化に柔軟に調整する。
まず、コールドスタート実行のための学習率のオンライン適応のために、次に、同様のタスクセットのスケジュールを調整し、新しいタスクのためにウォームスタートするために、一連の問題に取り組むのが適しています。
論文 参考訳(メタデータ) (2020-06-25T13:18:18Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z) - Meta-learning with Stochastic Linear Bandits [120.43000970418939]
我々は、よく知られたOFULアルゴリズムの正規化バージョンを実装するバンディットアルゴリズムのクラスを考える。
我々は,タスク数の増加とタスク分散の分散が小さくなると,タスクを個別に学習する上で,我々の戦略が大きな優位性を持つことを理論的および実験的に示す。
論文 参考訳(メタデータ) (2020-05-18T08:41:39Z) - Automatic, Dynamic, and Nearly Optimal Learning Rate Specification by
Local Quadratic Approximation [7.386152866234369]
ディープラーニングタスクでは、学習率が各イテレーションの更新ステップサイズを決定する。
局所二次近似(LQA)に基づく新しい最適化手法を提案する。
論文 参考訳(メタデータ) (2020-04-07T10:55:12Z) - Stochastic gradient descent with random learning rate [0.0]
本稿では,一様分散ランダム学習率でニューラルネットワークを最適化することを提案する。
ランダムな学習率プロトコルを周期的および定常的なプロトコルと比較することにより、ランダムな選択は、一般に小規模学習率体系における最良の戦略であると示唆する。
我々は、MNISTデータセットとCIFAR10データセットの画像分類のための、浅い、完全に接続された、深い、畳み込みニューラルネットワークの実験を通じて、支持エビデンスを提供する。
論文 参考訳(メタデータ) (2020-03-15T21:36:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。