論文の概要: Adam through a Second-Order Lens
- arxiv url: http://arxiv.org/abs/2310.14963v1
- Date: Mon, 23 Oct 2023 14:06:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 19:36:06.868555
- Title: Adam through a Second-Order Lens
- Title(参考訳): 第二級レンズを通したアダム
- Authors: Ross M. Clarke, Baiyu Su, Jos\'e Miguel Hern\'andez-Lobato
- Abstract要約: 我々は、K-FAC(Martens and Grosse, 2015)の減衰と学習率選択技術を組み合わせたオプティマイザAdamQLRを提案する。
我々はAdamQLRを様々なスケールの回帰および分類タスクで評価し、実行時と競合する一般化性能を達成する。
- 参考スコア(独自算出の注目度): 1.3654846342364308
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Research into optimisation for deep learning is characterised by a tension
between the computational efficiency of first-order, gradient-based methods
(such as SGD and Adam) and the theoretical efficiency of second-order,
curvature-based methods (such as quasi-Newton methods and K-FAC). We seek to
combine the benefits of both approaches into a single computationally-efficient
algorithm. Noting that second-order methods often depend on stabilising
heuristics (such as Levenberg-Marquardt damping), we propose AdamQLR: an
optimiser combining damping and learning rate selection techniques from K-FAC
(Martens and Grosse, 2015) with the update directions proposed by Adam,
inspired by considering Adam through a second-order lens. We evaluate AdamQLR
on a range of regression and classification tasks at various scales, achieving
competitive generalisation performance vs runtime.
- Abstract(参考訳): 深層学習の最適化に関する研究は、一階勾配法(sgdやadamなど)の計算効率と二階曲率法(準ニュートン法やk-facなど)の理論効率との緊張関係によって特徴づけられる。
両手法の利点を1つの計算効率のアルゴリズムに組み合わせることを模索する。
2階法はしばしば安定なヒューリスティック(例えばレベンバーグ・マーカルト・ダンピング)に依存するが、我々はadamqlrを提案する: k-fac (martens and grosse, 2015) による減衰と学習率選択技術をadamが提案した更新方向と組み合わせたオプティマイザーである。
我々はAdamQLRを様々なスケールの回帰および分類タスクで評価し、実行時と競合する一般化性能を達成する。
関連論文リスト
- MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
Adam、Adam、およびそれらの変種のような大規模な勾配アルゴリズムは、この種のトレーニングの開発の中心となっている。
本稿では,事前条件付き勾配最適化手法と,スケールドモーメント手法による分散低減を両立させる枠組みを提案する。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z) - Deconstructing What Makes a Good Optimizer for Language Models [7.9224468703944115]
SGD,Adafactor,Adam,Lionなどの最適化アルゴリズムを自己回帰言語モデリングの文脈で比較する。
以上の結果から,SGDを除いて,これらのアルゴリズムは最適性能の両立が可能であることが示唆された。
論文 参考訳(メタデータ) (2024-07-10T18:11:40Z) - Estimating the Hessian Matrix of Ranking Objectives for Stochastic Learning to Rank with Gradient Boosted Trees [63.18324983384337]
グラディエントブースト決定木(GBDT)のランク付け手法について紹介する。
我々の主な貢献は、二階微分、すなわちヘッセン行列に対する新しい推定器である。
推定器を既存のPL-Rankフレームワークに組み込む。
論文 参考訳(メタデータ) (2024-04-18T13:53:32Z) - Bidirectional Looking with A Novel Double Exponential Moving Average to
Adaptive and Non-adaptive Momentum Optimizers [109.52244418498974]
我々は,新しいtextscAdmeta(textbfADouble指数textbfMov averagtextbfE textbfAdaptiveおよび非適応運動量)フレームワークを提案する。
我々は、textscAdmetaR と textscAdmetaS の2つの実装を提供し、前者は RAdam を、後者は SGDM をベースとしています。
論文 参考訳(メタデータ) (2023-07-02T18:16:06Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - A Control Theoretic Framework for Adaptive Gradient Optimizers in
Machine Learning [0.6526824510982802]
適応勾配法はディープニューラルネットワークの最適化に人気がある。
最近の例にはAdaGradとAdamがある。
我々は適応的勾配法のための汎用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2022-06-04T17:55:33Z) - On the efficiency of Stochastic Quasi-Newton Methods for Deep Learning [0.0]
深部記憶ネットワークのための準ニュートン学習アルゴリズムの動作について検討する。
準ニュートンは効率が良く、よく知られたAdamの1次実行よりも性能が優れていることを示す。
論文 参考訳(メタデータ) (2022-05-18T20:53:58Z) - Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。
凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文 参考訳(メタデータ) (2021-08-25T17:58:21Z) - Meta-Regularization: An Approach to Adaptive Choice of the Learning Rate
in Gradient Descent [20.47598828422897]
第一次下降法における学習率の適応的選択のための新しいアプローチであるtextit-Meta-Regularizationを提案する。
本手法は,正規化項を追加して目的関数を修正し,共同処理パラメータをキャストする。
論文 参考訳(メタデータ) (2021-04-12T13:13:34Z) - ADAHESSIAN: An Adaptive Second Order Optimizer for Machine Learning [91.13797346047984]
本稿では,2次最適化アルゴリズムであるADAHESSIANを紹介する。
ADAHESSIANは、他の適応最適化手法と比較して、新しい最先端の成果を大きなマージンで達成することを示す。
論文 参考訳(メタデータ) (2020-06-01T05:00:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。