論文の概要: ADAHESSIAN: An Adaptive Second Order Optimizer for Machine Learning
- arxiv url: http://arxiv.org/abs/2006.00719v3
- Date: Thu, 29 Apr 2021 00:52:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 06:41:49.903328
- Title: ADAHESSIAN: An Adaptive Second Order Optimizer for Machine Learning
- Title(参考訳): adahessian: 機械学習のための適応二階最適化器
- Authors: Zhewei Yao, Amir Gholami, Sheng Shen, Mustafa Mustafa, Kurt Keutzer,
Michael W. Mahoney
- Abstract要約: 本稿では,2次最適化アルゴリズムであるADAHESSIANを紹介する。
ADAHESSIANは、他の適応最適化手法と比較して、新しい最先端の成果を大きなマージンで達成することを示す。
- 参考スコア(独自算出の注目度): 91.13797346047984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce ADAHESSIAN, a second order stochastic optimization algorithm
which dynamically incorporates the curvature of the loss function via ADAptive
estimates of the HESSIAN. Second order algorithms are among the most powerful
optimization algorithms with superior convergence properties as compared to
first order methods such as SGD and Adam. The main disadvantage of traditional
second order methods is their heavier per iteration computation and poor
accuracy as compared to first order methods. To address these, we incorporate
several novel approaches in ADAHESSIAN, including: (i) a fast Hutchinson based
method to approximate the curvature matrix with low computational overhead;
(ii) a root-mean-square exponential moving average to smooth out variations of
the Hessian diagonal across different iterations; and (iii) a block diagonal
averaging to reduce the variance of Hessian diagonal elements. We show that
ADAHESSIAN achieves new state-of-the-art results by a large margin as compared
to other adaptive optimization methods, including variants of Adam. In
particular, we perform extensive tests on CV, NLP, and recommendation system
tasks and find that ADAHESSIAN: (i) achieves 1.80%/1.45% higher accuracy on
ResNets20/32 on Cifar10, and 5.55% higher accuracy on ImageNet as compared to
Adam; (ii) outperforms AdamW for transformers by 0.13/0.33 BLEU score on
IWSLT14/WMT14 and 2.7/1.0 PPL on PTB/Wikitext-103; (iii) outperforms AdamW for
SqueezeBert by 0.41 points on GLUE; and (iv) achieves 0.032% better score than
Adagrad for DLRM on the Criteo Ad Kaggle dataset. Importantly, we show that the
cost per iteration of ADAHESSIAN is comparable to first order methods, and that
it exhibits robustness towards its hyperparameters.
- Abstract(参考訳): 本稿では,損失関数の曲率をHESSIANのADAptive推定により動的に組み込む2次確率最適化アルゴリズムであるADAHESSIANを紹介する。
第二次アルゴリズムは、SGDやAdamのような一階法と比較して収束特性が優れている最も強力な最適化アルゴリズムの一つである。
従来の二階法の主な欠点は、イテレーション毎の計算が重く、一階法に比べて精度が低いことである。
これらの問題に対処するため、我々はADAHESSIANにいくつかの新しいアプローチを取り入れた。
(i)計算オーバーヘッドの少ない曲率行列を近似する高速ハッチンソン法
(ii)異なるイテレーションにわたってヘッセン対角の変動を滑らかにするために、根-平均-指数的移動平均
(iii)ヘシアン対角要素の分散を減らすブロック対角平均化。
ADAHESSIAN は,Adam の変種を含む他の適応最適化手法と比較して,最先端の成果を大きなマージンで達成することを示す。
特に,CV,NLP,レコメンデーションシステムタスクの広範囲なテストを行い,ADAHESSIANについて確認した。
(i)Cifar10ではResNets20/32で1.80%/1.45%、ImageNetではAdamより5.55%高い精度を実現している。
(ii)IWSLT14/WMT14で0.13/0.33BLEUスコア、TB/Wikitext-103で2.7/1.0PPLでAdamWを上回ります。
(iii)粘着剤の粘着度を0.41ポイント上回る値とする。
(iv) criteo ad kaggleデータセットのdlrmに対するadagradより0.032%優れたスコアが得られる。
重要なことに、ADAHESSIANのイテレーション当たりのコストは、一階法に匹敵するものであり、ハイパーパラメータに対して堅牢であることを示す。
関連論文リスト
- MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
Adam、Adam、およびそれらの変種のような大規模な勾配アルゴリズムは、この種のトレーニングの開発の中心となっている。
本稿では,事前条件付き勾配最適化手法と,スケールドモーメント手法による分散低減を両立させる枠組みを提案する。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z) - Adapprox: Adaptive Approximation in Adam Optimization via Randomized Low-Rank Matrices [24.319712013824876]
Adapproxは、Adamの2番目の瞬間をより正確に近似するためにランダム化された低ランク行列近似を利用する新しいアプローチである。
GPT-2のトレーニングとダウンストリームタスクでは、アダポックスは34.5%から49.9%のメモリ節約を達成した。
論文 参考訳(メタデータ) (2024-03-22T05:23:31Z) - Studying K-FAC Heuristics by Viewing Adam through a Second-Order Lens [34.72514951778262]
我々は,K-FACの減衰と学習率選択技術を組み合わせたオプティマイザAdamQLRについて検討した。
我々はAdamQLRを様々なスケールで様々な回帰・分類タスクで評価する。
チューニングされていないAdamQLR設定を見つけることで、チューニングされたベンチマークに対して、実行時と同等のパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2023-10-23T14:06:46Z) - Bidirectional Looking with A Novel Double Exponential Moving Average to
Adaptive and Non-adaptive Momentum Optimizers [109.52244418498974]
我々は,新しいtextscAdmeta(textbfADouble指数textbfMov averagtextbfE textbfAdaptiveおよび非適応運動量)フレームワークを提案する。
我々は、textscAdmetaR と textscAdmetaS の2つの実装を提供し、前者は RAdam を、後者は SGDM をベースとしています。
論文 参考訳(メタデータ) (2023-07-02T18:16:06Z) - Efficient first-order predictor-corrector multiple objective
optimization for fair misinformation detection [5.139559672771439]
多重目的最適化(MOO)は、複数の競合する目的を同時に最適化することを目的としており、機械学習において重要な応用を見出した。
本稿では,線形にしかスケールしないガウスニュートン近似を提案し,イテレーション毎に一階内積しか必要としない。
このイノベーションは、大規模ネットワークで予測器のコレクタを可能にする。
論文 参考訳(メタデータ) (2022-09-15T12:32:15Z) - ZARTS: On Zero-order Optimization for Neural Architecture Search [94.41017048659664]
微分可能なアーキテクチャサーチ (DARTS) は、NASの高効率性のため、一般的なワンショットパラダイムである。
この作業はゼロオーダーの最適化に変わり、上記の近似を強制せずに探索するための新しいNASスキームであるZARTSを提案する。
特に、12ベンチマークの結果は、DARTSの性能が低下するZARTSの顕著な堅牢性を検証する。
論文 参考訳(メタデータ) (2021-10-10T09:35:15Z) - Correcting Momentum with Second-order Information [50.992629498861724]
最適積に$O(epsilon)$epsilon点を求める非臨界最適化のための新しいアルゴリズムを開発した。
我々は、さまざまな大規模ディープラーニングベンチマークとアーキテクチャで結果を検証する。
論文 参考訳(メタデータ) (2021-03-04T19:01:20Z) - Apollo: An Adaptive Parameter-wise Diagonal Quasi-Newton Method for
Nonconvex Stochastic Optimization [17.219297142656828]
非ギスブ最適化のための準ニュートン法を導入し、ヘッセンによる損失の曲率を動的に組み込む。
アルゴリズムの実装はhttps://www.xuezmax.com/XuezMax/apolloで公開されている。
論文 参考訳(メタデータ) (2020-09-28T19:07:02Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z) - Iterative Averaging in the Quest for Best Test Error [22.987387623516614]
本稿では,ガウス過程摂動モデルを用いて,反復平均化の一般化性能の増大を解析・説明する。
我々は理論結果から最新の3つの現象を導出する。
CIFAR-10/100, ImageNet, Penn Treebank のデータセットにアプローチの有効性を示す。
論文 参考訳(メタデータ) (2020-03-02T23:27:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。