論文の概要: Differentiable Self-Adaptive Learning Rate
- arxiv url: http://arxiv.org/abs/2210.10290v1
- Date: Wed, 19 Oct 2022 04:28:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 13:19:02.897856
- Title: Differentiable Self-Adaptive Learning Rate
- Title(参考訳): 差別化可能な自己適応学習率
- Authors: Bozhou Chen, Hongzhi Wang, Chenmin Ba
- Abstract要約: 本稿では,学習率がパラメータ固有で内部構造を持つ新しい適応アルゴリズムを提案する。
このアルゴリズムは,これらの最先端データセットよりも高速かつ高いコンバージェンスを達成できることが示されている。
- 参考スコア(独自算出の注目度): 4.443170466488981
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning rate adaptation is a popular topic in machine learning. Gradient
Descent trains neural nerwork with a fixed learning rate. Learning rate
adaptation is proposed to accelerate the training process through adjusting the
step size in the training session. Famous works include Momentum, Adam and
Hypergradient. Hypergradient is the most special one. Hypergradient achieved
adaptation by calculating the derivative of learning rate with respect to cost
function and utilizing gradient descent for learning rate. However,
Hypergradient is still not perfect. In practice, Hypergradient fail to decrease
training loss after learning rate adaptation with a large probability. Apart
from that, evidence has been found that Hypergradient are not suitable for
dealing with large datesets in the form of minibatch training. Most
unfortunately, Hypergradient always fails to get a good accuracy on the
validation dataset although it could reduce training loss to a very tiny value.
To solve Hypergradient's problems, we propose a novel adaptation algorithm,
where learning rate is parameter specific and internal structured. We conduct
extensive experiments on multiple network models and datasets compared with
various benchmark optimizers. It is shown that our algorithm can achieve faster
and higher qualified convergence than those state-of-art optimizers.
- Abstract(参考訳): 機械学習では、学習率の適応が一般的なトピックである。
Gradient Descentは、一定の学習率で神経オタクを訓練する。
トレーニングセッションのステップサイズを調整することにより,学習過程を加速させる学習率適応を提案する。
有名な作品には、Momentum、Adam、Hypergradientなどがある。
ハイパーグラディエント(Hypergradient)は、最も特殊なもの。
コスト関数に対する学習率の導出を計算し、学習率の勾配降下を利用した高次適応を実現する。
しかし、hypergradientはまだ完璧ではない。
実際、hypergradientは、学習率適応後のトレーニング損失を、大きな確率で減少させることに失敗している。
それとは別に、ハイパーグラディエントはミニバッチトレーニングの形で大きなラテットを扱うには適していないという証拠が見つかっている。
もっとも残念なことに、ハイパーグラディエントは常に、トレーニング損失を非常に小さな値に削減するが、バリデーションデータセットで適切な精度を得ることができない。
ハイパーグラディエントの問題を解決するために,学習率がパラメータ固有で内部構造を持つ新しい適応アルゴリズムを提案する。
様々なベンチマークオプティマイザと比較して,複数のネットワークモデルとデータセットについて広範な実験を行った。
本アルゴリズムは,これらの状態最適化器よりも高速かつ高いコンバージェンスを実現できることを示す。
関連論文リスト
- Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文 参考訳(メタデータ) (2024-06-17T12:24:45Z) - Training Acceleration of Low-Rank Decomposed Networks using Sequential
Freezing and Rank Quantization [5.914653351242832]
そこで本研究では,分解に少数のランクを使用することなく,低階分解モデルを高速化する2つの手法を提案する。
これらの手法には、ランク最適化とシーケンシャルな層凍結が含まれる。
実験によると、これらの手法は、トレーニング中に60%まで、組み合わせると推論時に37%まで、モデルのスループットを向上させることができる。
論文 参考訳(メタデータ) (2023-09-07T16:33:42Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of
Language Model [92.55145016562867]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Locally Regularized Neural Differential Equations: Some Black Boxes Were
Meant to Remain Closed! [3.222802562733787]
ニューラル微分方程式のような暗黙の層深層学習技術は重要なモデリングフレームワークとなっている。
パフォーマンスとトレーニング時間をトレードオフする2つのサンプリング戦略を開発します。
本手法は,関数評価を0.556-0.733xに削減し,予測を1.3-2xに高速化する。
論文 参考訳(メタデータ) (2023-03-03T23:31:15Z) - Balance is Essence: Accelerating Sparse Training via Adaptive Gradient
Correction [29.61757744974324]
ディープニューラルネットワークでは、メモリと計算コストが大幅に削減される。
スパーストレーニングは、これらのコストを削減する最も一般的な手法の1つである。
本研究では,この問題を克服し,時空協調効率の実現を目指す。
論文 参考訳(メタデータ) (2023-01-09T18:50:03Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Tom: Leveraging trend of the observed gradients for faster convergence [0.0]
TomはAdamの新しい変種であり、ニューラルネットワークによって渡される損失の風景の勾配の傾向を考慮に入れている。
Tomは両方の精度でAdagrad、Adadelta、RMSProp、Adamを上回り、より早く収束する。
論文 参考訳(メタデータ) (2021-09-07T20:19:40Z) - Adapting Stepsizes by Momentumized Gradients Improves Optimization and
Generalization [89.66571637204012]
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
論文 参考訳(メタデータ) (2021-06-22T03:13:23Z) - Training Aware Sigmoidal Optimizer [2.99368851209995]
Aware Sigmoidal関数をトレーニングすると、ローカルミニマよりもはるかにサドルロスの風景が表示されます。
本研究では,2相自動学習率スケジュールからなるTASO(Training Aware Sigmoidal Function)を提案する。
提案手法をAdam、RMS、Adagradなどの一般的な適応学習率スケジュールと比較した。
論文 参考訳(メタデータ) (2021-02-17T12:00:46Z) - Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。
我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。
トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文 参考訳(メタデータ) (2020-08-28T04:29:54Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。