論文の概要: AdaS: Adaptive Scheduling of Stochastic Gradients
- arxiv url: http://arxiv.org/abs/2006.06587v1
- Date: Thu, 11 Jun 2020 16:36:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 13:40:49.816947
- Title: AdaS: Adaptive Scheduling of Stochastic Gradients
- Title(参考訳): AdaS:確率勾配の適応スケジューリング
- Authors: Mahdi S. Hosseini and Konstantinos N. Plataniotis
- Abstract要約: 我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
- 参考スコア(独自算出の注目度): 50.80697760166045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The choice of step-size used in Stochastic Gradient Descent (SGD)
optimization is empirically selected in most training procedures. Moreover, the
use of scheduled learning techniques such as Step-Decaying, Cyclical-Learning,
and Warmup to tune the step-size requires extensive practical
experience--offering limited insight into how the parameters update--and is not
consistent across applications. This work attempts to answer a question of
interest to both researchers and practitioners, namely \textit{"how much
knowledge is gained in iterative training of deep neural networks?"} Answering
this question introduces two useful metrics derived from the singular values of
the low-rank factorization of convolution layers in deep neural networks. We
introduce the notions of \textit{"knowledge gain"} and \textit{"mapping
condition"} and propose a new algorithm called Adaptive Scheduling (AdaS) that
utilizes these derived metrics to adapt the SGD learning rate proportionally to
the rate of change in knowledge gain over successive iterations.
Experimentation reveals that, using the derived metrics, AdaS exhibits: (a)
faster convergence and superior generalization over existing adaptive learning
methods; and (b) lack of dependence on a validation set to determine when to
stop training. Code is available at
\url{https://github.com/mahdihosseini/AdaS}.
- Abstract(参考訳): Stochastic Gradient Descent (SGD)最適化におけるステップサイズの選択は、ほとんどのトレーニング手順で経験的に選択される。
さらに、ステップデケイリング、サイクリックラーニング、ウォームアップといったスケジュールされた学習テクニックを使用してステップサイズを調整するには、広範囲な実践的経験が必要である。
ディープニューラルネットワークの反復的トレーニングにおいてどの程度の知識が得られたか?} ディープニューラルネットワークにおける畳み込み層の低ランク因数分解の特異値から導かれる2つの有用な指標を紹介する。
そこで本研究では,これらの手法を応用した適応スケジューリング(Adaptive Scheduling, AdaS)というアルゴリズムを提案し,SGD学習率を連続反復による知識獲得率の変化率に比例して適応する。
実験では、派生メトリクスを使用して、AdaSは次のように示す。
(a)既存の適応学習法よりも高速な収束と優れた一般化
b) トレーニングの中止時期を決定するための検証セットへの依存の欠如。
コードは \url{https://github.com/mahdihosseini/adas} で入手できる。
関連論文リスト
- Adaptive Rentention & Correction for Continual Learning [114.5656325514408]
連続学習における一般的な問題は、最新のタスクに対する分類層のバイアスである。
アダプティブ・リテンション・アンド・コレクション (ARC) のアプローチを例に挙げる。
ARCはCIFAR-100とImagenet-Rのデータセットで平均2.7%と2.6%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2024-05-23T08:43:09Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Complementary Learning Subnetworks for Parameter-Efficient
Class-Incremental Learning [40.13416912075668]
本稿では,2つの補完学習サブネットワークス間のシナジーを通じて連続的に学習するリハーサルフリーなCILアプローチを提案する。
提案手法は, 精度向上, メモリコスト, トレーニング効率, タスク順序など, 最先端手法と競合する結果が得られる。
論文 参考訳(メタデータ) (2023-06-21T01:43:25Z) - Hyper-Learning for Gradient-Based Batch Size Adaptation [2.944323057176686]
バッチサイズをスケジューリングして拡大することは、ディープニューラルネットワークをトレーニングする際のノイズを制御する効果的な戦略である。
学習可能なスケジューリングのためのバッチサイズ適応を行うためのアルゴリズムとしてArbiterを導入する。
いくつかの実験でArbiterの有効性を実証した。
論文 参考訳(メタデータ) (2022-05-17T11:01:14Z) - Natural continual learning: success is a journey, not (just) a
destination [9.462808515258464]
自然継続学習(NCL)は、重み付け正規化と射影勾配降下を統一する新しい手法である。
提案手法は,RNNにおける連続学習問題に適用した場合,標準重み付け正規化手法とプロジェクションベースアプローチの両方に優れる。
トレーニングされたネットワークは、生体回路の実験的な発見と同様に、新しいタスクが学習されると強く保存されるタスク固有ダイナミクスを進化させる。
論文 参考訳(メタデータ) (2021-06-15T12:24:53Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Tune smarter not harder: A principled approach to tuning learning rates
for shallow nets [13.203765985718201]
浅いフィードフォワードニューラルネットワークに対して,学習率を選択するための原則的アプローチを提案する。
シミュレーションにより,提案手法が既存のチューニング手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2020-03-22T09:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。