論文の概要: Series of Hessian-Vector Products for Tractable Saddle-Free Newton
Optimisation of Neural Networks
- arxiv url: http://arxiv.org/abs/2310.14901v2
- Date: Tue, 27 Feb 2024 14:13:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 21:56:45.320617
- Title: Series of Hessian-Vector Products for Tractable Saddle-Free Newton
Optimisation of Neural Networks
- Title(参考訳): ニューラルネットワークのトラクタブルサドルフリーニュートン最適化のためのヘシアンベクトル生成物シリーズ
- Authors: Elre T. Oldewage, Ross M. Clarke and Jos\'e Miguel Hern\'andez-Lobato
- Abstract要約: 絶対値固有値を持つ正逆 Hessian を,一階乗算可能な最適化アルゴリズムで効率的に利用できることを示す。
この級数のt-runは、他の1階と2階の最適化手法に匹敵する新しい最適化を提供する。
- 参考スコア(独自算出の注目度): 1.3654846342364308
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite their popularity in the field of continuous optimisation,
second-order quasi-Newton methods are challenging to apply in machine learning,
as the Hessian matrix is intractably large. This computational burden is
exacerbated by the need to address non-convexity, for instance by modifying the
Hessian's eigenvalues as in Saddle-Free Newton methods. We propose an
optimisation algorithm which addresses both of these concerns - to our
knowledge, the first efficiently-scalable optimisation algorithm to
asymptotically use the exact inverse Hessian with absolute-value eigenvalues.
Our method frames the problem as a series which principally square-roots and
inverts the squared Hessian, then uses it to precondition a gradient vector,
all without explicitly computing or eigendecomposing the Hessian. A truncation
of this infinite series provides a new optimisation algorithm which is scalable
and comparable to other first- and second-order optimisation methods in both
runtime and optimisation performance. We demonstrate this in a variety of
settings, including a ResNet-18 trained on CIFAR-10.
- Abstract(参考訳): 連続最適化の分野で人気があるにもかかわらず、二階準ニュートン法はヘシアン行列が難解に大きいため、機械学習に適用するのが困難である。
この計算上の負担は、例えば、サドルフリーニュートン法のようにヘッセンの固有値を変更することで、非凸性に対処する必要性によって悪化する。
本稿では,この2つの問題に対処する最適化アルゴリズムを提案する。このアルゴリズムは,絶対値固有値を持つ正逆 Hessian を漸近的に用いた最初の効率のよい最適化アルゴリズムである。
本手法は,主に二乗根と正方形ヘッセンを逆転させる級数としてこの問題を定式化し,それを用いて勾配ベクトルを前処理する。
この無限列の切断は、実行時および最適化性能の両方において、他の一階および二階の最適化方法に匹敵するスケーラブルな新しい最適化アルゴリズムを提供する。
CIFAR-10でトレーニングされたResNet-18など、さまざまな環境でこれを実証しています。
関連論文リスト
- Stochastic Optimization for Non-convex Problem with Inexact Hessian
Matrix, Gradient, and Function [99.31457740916815]
信頼領域(TR)と立方体を用いた適応正則化は、非常に魅力的な理論的性質を持つことが証明されている。
TR法とARC法はヘッセン関数,勾配関数,関数値の非コンパクトな計算を同時に行うことができることを示す。
論文 参考訳(メタデータ) (2023-10-18T10:29:58Z) - Self-concordant Smoothing for Large-Scale Convex Composite Optimization [0.0]
2つの凸関数の和を最小化する自己協和スムージングの概念を導入し、そのうちの1つは滑らかであり、もう1つは非滑らかである。
本稿では, 近位ニュートンアルゴリズムであるProx-N-SCOREと近位一般化したガウスニュートンアルゴリズムであるProx-GGN-SCOREの2つのアルゴリズムの収束性を証明する。
論文 参考訳(メタデータ) (2023-09-04T19:47:04Z) - Accelerating Cutting-Plane Algorithms via Reinforcement Learning
Surrogates [49.84541884653309]
凸離散最適化問題に対する現在の標準的なアプローチは、カットプレーンアルゴリズムを使うことである。
多くの汎用カット生成アルゴリズムが存在するにもかかわらず、大規模な離散最適化問題は、難易度に悩まされ続けている。
そこで本研究では,強化学習による切削平面アルゴリズムの高速化手法を提案する。
論文 参考訳(メタデータ) (2023-07-17T20:11:56Z) - Accelerated First-Order Optimization under Nonlinear Constraints [73.2273449996098]
我々は、制約付き最適化のための一階アルゴリズムと非滑らかなシステムの間で、新しい一階アルゴリズムのクラスを設計する。
これらのアルゴリズムの重要な性質は、制約がスパース変数の代わりに速度で表されることである。
論文 参考訳(メタデータ) (2023-02-01T08:50:48Z) - Improved Convergence Rate of Stochastic Gradient Langevin Dynamics with
Variance Reduction and its Application to Optimization [50.83356836818667]
勾配ランゲヴィン・ダイナミクスは非エプス最適化問題を解くための最も基本的なアルゴリズムの1つである。
本稿では、このタイプの2つの変種、すなわち、分散還元ランジュバンダイナミクスと再帰勾配ランジュバンダイナミクスを示す。
論文 参考訳(メタデータ) (2022-03-30T11:39:00Z) - Newton-LESS: Sparsification without Trade-offs for the Sketched Newton
Update [88.73437209862891]
2階最適化において、潜在的なボトルネックは繰り返しごとに最適化関数のヘシアン行列を計算することである。
本稿では,ガウススケッチ行列を劇的に分散させることにより,スケッチの計算コストを大幅に削減できることを示す。
ニュートン=ルネッサはガウス埋め込みとほぼ同じ問題に依存しない局所収束率を享受していることを証明した。
論文 参考訳(メタデータ) (2021-07-15T17:33:05Z) - SHINE: SHaring the INverse Estimate from the forward pass for bi-level
optimization and implicit models [15.541264326378366]
近年,深層ニューラルネットワークの深度を高める手法として暗黙の深度学習が登場している。
トレーニングは双レベル問題として実行され、その計算複雑性は巨大なヤコビ行列の反復反転によって部分的に駆動される。
本稿では,この計算ボトルネックに対処する新たな手法を提案する。
論文 参考訳(メタデータ) (2021-06-01T15:07:34Z) - Apollo: An Adaptive Parameter-wise Diagonal Quasi-Newton Method for
Nonconvex Stochastic Optimization [17.219297142656828]
非ギスブ最適化のための準ニュートン法を導入し、ヘッセンによる損失の曲率を動的に組み込む。
アルゴリズムの実装はhttps://www.xuezmax.com/XuezMax/apolloで公開されている。
論文 参考訳(メタデータ) (2020-09-28T19:07:02Z) - Convergence of adaptive algorithms for weakly convex constrained
optimization [59.36386973876765]
モローエンベロープの勾配のノルムに対して$mathcaltilde O(t-1/4)$収束率を証明する。
我々の分析では、最小バッチサイズが1ドル、定数が1位と2位のモーメントパラメータが1ドル、そしておそらくスムーズな最適化ドメインで機能する。
論文 参考訳(メタデータ) (2020-06-11T17:43:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。