論文の概要: Prodigy: An Expeditiously Adaptive Parameter-Free Learner
- arxiv url: http://arxiv.org/abs/2306.06101v1
- Date: Fri, 9 Jun 2023 17:59:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-12 12:04:13.533717
- Title: Prodigy: An Expeditiously Adaptive Parameter-Free Learner
- Title(参考訳): Prodigy: 適応型パラメータフリー学習者
- Authors: Konstantin Mishchenko, Aaron Defazio
- Abstract要約: 我々は,AdagradやAdamといった適応的な手法で学習率を推定する問題を考察する。
本稿では,2つの手法,Prodigy と Resetting について述べる。
我々のアプローチは、D-Adaptationを一貫して上回り、手作りのAdamに近いテスト精度の値に到達します。
- 参考スコア(独自算出の注目度): 18.853820404058983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of estimating the learning rate in adaptive methods,
such as Adagrad and Adam. We describe two techniques, Prodigy and Resetting, to
provably estimate the distance to the solution $D$, which is needed to set the
learning rate optimally. Our techniques are modifications of the D-Adaptation
method for learning-rate-free learning. Our methods improve upon the
convergence rate of D-Adaptation by a factor of $O(\sqrt{\log(D/d_0)})$, where
$d_0$ is the initial estimate of $D$. We test our methods on 12 common
logistic-regression benchmark datasets, VGG11 and ResNet-50 training on
CIFAR10, ViT training on Imagenet, LSTM training on IWSLT14, DLRM training on
Criteo dataset, VarNet on Knee MRI dataset, as well as RoBERTa and GPT
transformer training on BookWiki. Our experimental results show that our
approaches consistently outperform D-Adaptation and reach test accuracy values
close to that of hand-tuned Adam.
- Abstract(参考訳): 我々は,AdagradやAdamといった適応的な手法で学習率を推定する問題を考察する。
本稿では,学習率を最適に設定するために必要な解からD$までの距離を確実に推定する2つの手法,ProdigyとResettingについて述べる。
本手法は,学習速度フリー学習のためのd適応法の改良である。
我々の手法は、D-適応の収束率を$O(\sqrt{\log(D/d_0)})$で改善する。
我々は12の共通ロジスティック回帰ベンチマークデータセット、CIFAR10のVGG11およびResNet-50トレーニング、ImagenetのVTトレーニング、IWSLT14のLSTMトレーニング、CriteoデータセットのDLRMトレーニング、Knee MRIデータセットのVarNet、BookWikiのRoBERTaおよびGPTトランスフォーマートレーニングについてテストした。
実験の結果,D-Adaptationの精度は手作業のAdamと同等に向上し,精度も向上した。
関連論文リスト
- Improving Representational Continuity via Continued Pretraining [76.29171039601948]
トランスファーラーニングコミュニティ(LP-FT)は、ナイーブトレーニングやその他の継続的な学習方法よりも優れている。
LP-FTは、リアルタイム衛星リモートセンシングデータセット(FMoW)における忘れを減らす。
LP-FTの変種は、NLP連続学習ベンチマークで最先端の精度を得る。
論文 参考訳(メタデータ) (2023-02-26T10:39:38Z) - Input Normalized Stochastic Gradient Descent Training of Deep Neural
Networks [2.1485350418225244]
本稿では,入力正規化勾配 Descent (INSGD) と呼ばれる機械学習モデルを学習するための新しい最適化アルゴリズムを提案する。
我々のアルゴリズムは,NLMSと同様,学習速度に適用した$ell_$および$ell_$ベースの正規化を用いて,勾配勾配を用いてネットワーク重みを更新する。
本稿では,ResNet-18,WResNet-20,ResNet-50,玩具ニューラルネットワークを用いて,ベンチマークデータセット上でのトレーニングアルゴリズムの有効性を評価する。
論文 参考訳(メタデータ) (2022-12-20T00:08:37Z) - Learning Rate Curriculum [75.98230528486401]
ラーニングレートカリキュラム(LeRaC)と呼ばれる新しいカリキュラム学習手法を提案する。
LeRaCは、ニューラルネットワークの各レイヤ毎に異なる学習率を使用して、最初のトレーニングエポックの間、データに依存しないカリキュラムを作成する。
Smoothing(CBS)によるCurriculum(Curriculum)との比較を行った。
論文 参考訳(メタデータ) (2022-05-18T18:57:36Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - LRTuner: A Learning Rate Tuner for Deep Neural Networks [10.913790890826785]
学習率のスケジュールの選択は、計算コストがミニマに近づくこと、実際にミニマにどれだけ近づいたか、そして最も重要なのは、ローカルなミニマ(ワイド/ナロー)が到達したかを決定する。
現在のシステムは、手動チューニングされた学習率スケジュールを採用しており、各ネットワークとデータセットに対して面倒な調整がなされている。
LRTunerは,学習が進むにつれて学習率のスケジュールを調整できる手法である。
論文 参考訳(メタデータ) (2021-05-30T13:06:26Z) - Exploiting Adam-like Optimization Algorithms to Improve the Performance
of Convolutional Neural Networks [82.61182037130405]
勾配降下(SGD)は深いネットワークを訓練するための主要なアプローチです。
本研究では,現在と過去の勾配の違いに基づいて,Adamに基づく変分を比較する。
resnet50を勾配降下訓練したネットワークのアンサンブルと融合実験を行った。
論文 参考訳(メタデータ) (2021-03-26T18:55:08Z) - RNN Training along Locally Optimal Trajectories via Frank-Wolfe
Algorithm [50.76576946099215]
小領域の損失面に局所的なミニマを反復的に求めることにより,RNNの新規かつ効率的なトレーニング手法を提案する。
新たなRNNトレーニング手法を開発し,追加コストを伴っても,全体のトレーニングコストがバックプロパゲーションよりも低いことを実証的に観察した。
論文 参考訳(メタデータ) (2020-10-12T01:59:18Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z) - Adaptive Low-Rank Factorization to regularize shallow and deep neural
networks [9.607123078804959]
低ランク行列因子化(LRF)を用いて、学習過程に沿って学習モデルのパラメータをドロップアウトする。
SVHNとCIFAR-10データセットにおけるAdaptiveLRFの最良の結果は98%、94.1%、97.9%、94%の精度である。
論文 参考訳(メタデータ) (2020-05-05T08:13:30Z) - A Dynamic Sampling Adaptive-SGD Method for Machine Learning [8.173034693197351]
本稿では,勾配近似の計算に使用されるバッチサイズと,その方向に移動するステップサイズを適応的に制御する手法を提案する。
提案手法は局所曲率情報を利用して探索方向を高い確率で降下方向とする。
数値実験により、この手法は最適な学習率を選択することができ、ロジスティック回帰とDNNを訓練するための微調整されたSGDと好適に比較できることが示された。
論文 参考訳(メタデータ) (2019-12-31T15:36:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。