論文の概要: AutoDrop: Training Deep Learning Models with Automatic Learning Rate
Drop
- arxiv url: http://arxiv.org/abs/2111.15317v1
- Date: Tue, 30 Nov 2021 11:55:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-01 16:18:32.068462
- Title: AutoDrop: Training Deep Learning Models with Automatic Learning Rate
Drop
- Title(参考訳): AutoDrop: 自動学習率低下によるディープラーニングモデルのトレーニング
- Authors: Yunfei Teng, Jing Wang, Anna Choromanska
- Abstract要約: 学習速度を$textitautomatically$に下げるアルゴリズムを開発した。
提案手法はSOTAトレーニングアプローチよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 16.396327849817464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern deep learning (DL) architectures are trained using variants of the SGD
algorithm that is run with a $\textit{manually}$ defined learning rate
schedule, i.e., the learning rate is dropped at the pre-defined epochs,
typically when the training loss is expected to saturate. In this paper we
develop an algorithm that realizes the learning rate drop
$\textit{automatically}$. The proposed method, that we refer to as AutoDrop, is
motivated by the observation that the angular velocity of the model parameters,
i.e., the velocity of the changes of the convergence direction, for a fixed
learning rate initially increases rapidly and then progresses towards soft
saturation. At saturation the optimizer slows down thus the angular velocity
saturation is a good indicator for dropping the learning rate. After the drop,
the angular velocity "resets" and follows the previously described pattern - it
increases again until saturation. We show that our method improves over SOTA
training approaches: it accelerates the training of DL models and leads to a
better generalization. We also show that our method does not require any extra
hyperparameter tuning. AutoDrop is furthermore extremely simple to implement
and computationally cheap. Finally, we develop a theoretical framework for
analyzing our algorithm and provide convergence guarantees.
- Abstract(参考訳): 現代のディープラーニング(dl)アーキテクチャは、$\textit{manually}$定義された学習率スケジュールで実行されるsgdアルゴリズムの変種を使って訓練される。
本稿では,学習率を$\textit{automatically}$とするアルゴリズムを開発した。
提案手法は,モデルパラメータの角速度,すなわち,一定の学習速度に対する収束方向の変化速度が,最初は急速に増大し,その後ソフト飽和に向かって進行するのが動機である。
飽和時、最適化器は減速するため、角速度飽和は学習率を下げる良い指標となる。
落下後、角速度は「リセット」され、前述したパターンに従い、飽和するまで再び増加する。
我々は,本手法がSOTAトレーニング手法よりも改善できることを示し,DLモデルのトレーニングを加速し,より良い一般化をもたらすことを示した。
また,本手法は追加のハイパーパラメータチューニングを必要としないことを示す。
さらに、AutoDropは実装が非常に簡単で、計算コストも安い。
最後に,アルゴリズムを解析し,収束保証を提供する理論的枠組みを開発する。
関連論文リスト
- Automatic gradient descent with generalized Newton's method [8.885727065823156]
本稿では,SGDやAdamなどのトピックに適用可能なヘシアンインフォームドアプローチを提案する。
本手法は,収束を加速する学習率を自動的に動的に選択する。
実際にoutメソッドは、計算オーバーヘッドがほとんどゼロのフォワードパスのみを必要とするため、実装が容易である。
論文 参考訳(メタデータ) (2024-07-03T03:01:43Z) - Highway Graph to Accelerate Reinforcement Learning [18.849312069946993]
状態遷移をモデル化するための新しいグラフ構造であるハイウェイグラフを提案する。
ハイウェイグラフをRLに統合することにより、初期の段階でRLトレーニングを著しく加速させることができる。
ディープニューラルネットワークベースのエージェントは、ハイウェイグラフを使用してトレーニングされる。
論文 参考訳(メタデータ) (2024-05-20T02:09:07Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Partial End-to-end Reinforcement Learning for Robustness Against Modelling Error in Autonomous Racing [0.0]
本稿では、自動運転車における強化学習(RL)ソリューションの性能向上の問題に対処する。
計画タスクと制御タスクを分離する部分的なエンドツーエンドアルゴリズムを提案する。
従来の制御器のロバスト性を活用することにより,本アルゴリズムは標準のエンドツーエンドアルゴリズムよりもモデルミスマッチに対するロバスト性を向上する。
論文 参考訳(メタデータ) (2023-12-11T14:27:10Z) - Mechanic: A Learning Rate Tuner [52.4242550204696]
我々は,任意の基本最適化アルゴリズムの学習率尺度係数を調整し,自動的にスケジュールする手法を導入し,それをテクスチャメカニックと呼ぶ。
各種バッチサイズ,スケジュール,基本最適化アルゴリズムを用いて,大規模深層学習タスクにおけるテクスチャメカニックを厳格に評価する。
論文 参考訳(メタデータ) (2023-05-31T19:32:43Z) - Flatter, faster: scaling momentum for optimal speedup of SGD [0.0]
ニューラルネットワークのトレーニングにおいて、勾配降下(SGD)とラベルノイズと運動量との相互作用から生じるトレーニングダイナミクスについて検討した。
運動量ハイパーパラメータ1-NISTbeta$を学習率で2/3$にスケーリングすると、一般化を犠牲にすることなく、最大で2/3$のトレーニングが加速することがわかった。
論文 参考訳(メタデータ) (2022-10-28T20:41:48Z) - Adaptive Learning Rate and Momentum for Training Deep Neural Networks [0.0]
本研究では,非線形共役勾配(CG)フレームワークによる高速トレーニング手法を開発した。
画像分類データセットの実験により,本手法は他の局所解法よりも高速な収束が得られることが示された。
論文 参考訳(メタデータ) (2021-06-22T05:06:56Z) - Correcting Momentum in Temporal Difference Learning [95.62766731469671]
時間差(TD)学習のモーメントは2倍に不安定になる勾配を蓄積すると主張している。
この現象が存在することを示し、その上で運動量に対する一階補正項を提案する。
この研究の重要な洞察は、深いRL法は、常に監督された設定から直接テクニックをインポートすることで最適ではないということである。
論文 参考訳(メタデータ) (2021-06-07T20:41:15Z) - Deep Feedback Inverse Problem Solver [141.26041463617963]
逆問題に対する効率的で効果的で汎用的なアプローチを提案する。
我々は、フォワードプロセスが提供するフィードバック信号を活用し、反復的な更新モデルを学ぶ。
私たちのアプローチは前もってのプロセスに制限がなく、事前の知識も必要ありません。
論文 参考訳(メタデータ) (2021-01-19T16:49:06Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。