論文の概要: AdaS: Adaptive Scheduling of Stochastic Gradients
- arxiv url: http://arxiv.org/abs/2006.06587v1
- Date: Thu, 11 Jun 2020 16:36:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 13:40:49.816947
- Title: AdaS: Adaptive Scheduling of Stochastic Gradients
- Title(参考訳): AdaS:確率勾配の適応スケジューリング
- Authors: Mahdi S. Hosseini and Konstantinos N. Plataniotis
- Abstract要約: 我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
- 参考スコア(独自算出の注目度): 50.80697760166045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The choice of step-size used in Stochastic Gradient Descent (SGD)
optimization is empirically selected in most training procedures. Moreover, the
use of scheduled learning techniques such as Step-Decaying, Cyclical-Learning,
and Warmup to tune the step-size requires extensive practical
experience--offering limited insight into how the parameters update--and is not
consistent across applications. This work attempts to answer a question of
interest to both researchers and practitioners, namely \textit{"how much
knowledge is gained in iterative training of deep neural networks?"} Answering
this question introduces two useful metrics derived from the singular values of
the low-rank factorization of convolution layers in deep neural networks. We
introduce the notions of \textit{"knowledge gain"} and \textit{"mapping
condition"} and propose a new algorithm called Adaptive Scheduling (AdaS) that
utilizes these derived metrics to adapt the SGD learning rate proportionally to
the rate of change in knowledge gain over successive iterations.
Experimentation reveals that, using the derived metrics, AdaS exhibits: (a)
faster convergence and superior generalization over existing adaptive learning
methods; and (b) lack of dependence on a validation set to determine when to
stop training. Code is available at
\url{https://github.com/mahdihosseini/AdaS}.
- Abstract(参考訳): Stochastic Gradient Descent (SGD)最適化におけるステップサイズの選択は、ほとんどのトレーニング手順で経験的に選択される。
さらに、ステップデケイリング、サイクリックラーニング、ウォームアップといったスケジュールされた学習テクニックを使用してステップサイズを調整するには、広範囲な実践的経験が必要である。
ディープニューラルネットワークの反復的トレーニングにおいてどの程度の知識が得られたか?} ディープニューラルネットワークにおける畳み込み層の低ランク因数分解の特異値から導かれる2つの有用な指標を紹介する。
そこで本研究では,これらの手法を応用した適応スケジューリング(Adaptive Scheduling, AdaS)というアルゴリズムを提案し,SGD学習率を連続反復による知識獲得率の変化率に比例して適応する。
実験では、派生メトリクスを使用して、AdaSは次のように示す。
(a)既存の適応学習法よりも高速な収束と優れた一般化
b) トレーニングの中止時期を決定するための検証セットへの依存の欠如。
コードは \url{https://github.com/mahdihosseini/adas} で入手できる。
関連論文リスト
- Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Complementary Learning Subnetworks for Parameter-Efficient
Class-Incremental Learning [40.13416912075668]
本稿では,2つの補完学習サブネットワークス間のシナジーを通じて連続的に学習するリハーサルフリーなCILアプローチを提案する。
提案手法は, 精度向上, メモリコスト, トレーニング効率, タスク順序など, 最先端手法と競合する結果が得られる。
論文 参考訳(メタデータ) (2023-06-21T01:43:25Z) - Hyper-Learning for Gradient-Based Batch Size Adaptation [2.944323057176686]
バッチサイズをスケジューリングして拡大することは、ディープニューラルネットワークをトレーニングする際のノイズを制御する効果的な戦略である。
学習可能なスケジューリングのためのバッチサイズ適応を行うためのアルゴリズムとしてArbiterを導入する。
いくつかの実験でArbiterの有効性を実証した。
論文 参考訳(メタデータ) (2022-05-17T11:01:14Z) - Continuous-Time Meta-Learning with Forward Mode Differentiation [65.26189016950343]
本稿では,勾配ベクトル場の力学に適応するメタ学習アルゴリズムであるContinuous Meta-Learning(COMLN)を紹介する。
学習プロセスをODEとして扱うことは、軌跡の長さが現在連続しているという顕著な利点を提供する。
本稿では,実行時とメモリ使用時の効率を実証的に示すとともに,いくつかの画像分類問題に対して有効性を示す。
論文 参考訳(メタデータ) (2022-03-02T22:35:58Z) - Natural continual learning: success is a journey, not (just) a
destination [9.462808515258464]
自然継続学習(NCL)は、重み付け正規化と射影勾配降下を統一する新しい手法である。
提案手法は,RNNにおける連続学習問題に適用した場合,標準重み付け正規化手法とプロジェクションベースアプローチの両方に優れる。
トレーニングされたネットワークは、生体回路の実験的な発見と同様に、新しいタスクが学習されると強く保存されるタスク固有ダイナミクスを進化させる。
論文 参考訳(メタデータ) (2021-06-15T12:24:53Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - Variance Reduction for Deep Q-Learning using Stochastic Recursive
Gradient [51.880464915253924]
深層Q-ラーニングアルゴリズムは、過度な分散を伴う勾配推定に苦しむことが多い。
本稿では、SRG-DQNと呼ばれる新しいアルゴリズムを実現するため、深層Q-ラーニングにおける勾配推定を更新するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-25T00:54:20Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Tune smarter not harder: A principled approach to tuning learning rates
for shallow nets [13.203765985718201]
浅いフィードフォワードニューラルネットワークに対して,学習率を選択するための原則的アプローチを提案する。
シミュレーションにより,提案手法が既存のチューニング手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2020-03-22T09:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。