論文の概要: Low Rank Saddle Free Newton: A Scalable Method for Stochastic Nonconvex
Optimization
- arxiv url: http://arxiv.org/abs/2002.02881v3
- Date: Tue, 24 Aug 2021 19:54:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 05:20:07.946716
- Title: Low Rank Saddle Free Newton: A Scalable Method for Stochastic Nonconvex
Optimization
- Title(参考訳): 低ランクサドルフリーニュートン:確率的非凸最適化のためのスケーラブルな方法
- Authors: Thomas O'Leary-Roseberry, Nick Alger, Omar Ghattas
- Abstract要約: 現代のディープラーニングでは、サンプル平均近似(SAA)法よりも、高度にサブサンプル化された近似(SA)法が好まれている。
拡張性のある低階サドルフリーニュートン法(LRSFN)はヘッセン語の形成を回避し,低階近似を優先する。
- 参考スコア(独自算出の注目度): 3.9962751777898955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In modern deep learning, highly subsampled stochastic approximation (SA)
methods are preferred to sample average approximation (SAA) methods because of
large data sets as well as generalization properties. Additionally, due to
perceived costs of forming and factorizing Hessians, second order methods are
not used for these problems. In this work we motivate the extension of Newton
methods to the SA regime, and argue for the use of the scalable low rank saddle
free Newton (LRSFN) method, which avoids forming the Hessian in favor of making
a low rank approximation. Additionally, LRSFN can facilitate fast escape from
indefinite regions leading to better optimization solutions. In the SA setting,
iterative updates are dominated by stochastic noise, and stability of the
method is key. We introduce a continuous time stability analysis framework, and
use it to demonstrate that stochastic errors for Newton methods can be greatly
amplified by ill-conditioned Hessians. The LRSFN method mitigates this
stability issue via Levenberg-Marquardt damping. However, generally the
analysis shows that second order methods with stochastic Hessian and gradient
information may need to take small steps, unlike in deterministic problems.
Numerical results show that LRSFN can escape indefinite regions that other
methods have issues with; and even under restrictive step length conditions,
LRSFN can outperform popular first order methods on large scale deep learning
tasks in terms of generalizability for equivalent computational work.
- Abstract(参考訳): 現代のディープラーニングでは、大規模データセットと一般化特性から、高度にサブサンプル化された確率近似(SA)法が平均近似(SAA)法より好まれている。
加えて、ヘッセン人の形成と分解のコストが認識されているため、これらの問題には二階法が用いられない。
この研究において、ニュートン法をSA体制に拡張する動機付けを行い、低階近似を好んでヘッセンを形成することを避けるため、スケーラブルな低階サドルフリーニュートン法(LRSFN)を用いることを主張した。
さらにLRSFNは、不確定領域から素早く脱出し、より良い最適化ソリューションを実現する。
SA設定では、反復的な更新は確率的ノイズに支配され、手法の安定性が鍵となる。
我々は, 連続時間安定性解析フレームワークを導入し, ニュートン法に対する確率的誤差を悪条件のヘッシアンによって大きく増幅できることを示す。
LRSFN法はこの安定性問題をレバンス・マルカールト減衰によって緩和する。
しかし、一般に解析は、決定論的問題とは異なり、確率的ヘッセン情報と勾配情報を持つ二階法は小さなステップを踏む必要があることを示している。
数値計算の結果,LRSFNは他の手法が抱える問題のある不確定領域から逃れることが可能であり,制限的なステップ長条件下であっても,等価な計算作業の一般化性の観点から,大規模深層学習タスクにおいて一般的な一階法よりも優れていることがわかった。
関連論文リスト
- Trust-Region Sequential Quadratic Programming for Stochastic Optimization with Random Models [57.52124921268249]
本稿では,1次と2次の両方の定常点を見つけるための信頼逐次準計画法を提案する。
本手法は, 1次定常点に収束するため, 対象対象の近似を最小化して定義された各イテレーションの勾配ステップを計算する。
2階定常点に収束するため,本手法は負曲率を減少するヘッセン行列を探索する固有ステップも計算する。
論文 参考訳(メタデータ) (2024-09-24T04:39:47Z) - Fast Unconstrained Optimization via Hessian Averaging and Adaptive Gradient Sampling Methods [0.3222802562733786]
ヘシアン・アブラッシングに基づくサブサンプルニュートン法による有限サム予測対象関数の最小化について検討する。
これらの方法は不有効であり、ヘッセン近似の固定コストがかかる。
本稿では,新しい解析手法を提案し,その実用化に向けた課題を提案する。
論文 参考訳(メタデータ) (2024-08-14T03:27:48Z) - High-Probability Convergence for Composite and Distributed Stochastic Minimization and Variational Inequalities with Heavy-Tailed Noise [96.80184504268593]
グラデーション、クリッピングは、優れた高確率保証を導き出すアルゴリズムの鍵となる要素の1つである。
クリッピングは、合成および分散最適化の一般的な方法の収束を損なう可能性がある。
論文 参考訳(メタデータ) (2023-10-03T07:49:17Z) - Resource-Adaptive Newton's Method for Distributed Learning [16.588456212160928]
本稿では,Newtonの手法の限界を克服するRANLというアルゴリズムを提案する。
従来の一階法とは異なり、RANLは問題の条件数から著しく独立している。
論文 参考訳(メタデータ) (2023-08-20T04:01:30Z) - Stochastic Inexact Augmented Lagrangian Method for Nonconvex Expectation
Constrained Optimization [88.0031283949404]
多くの実世界の問題は複雑な非機能的制約を持ち、多くのデータポイントを使用する。
提案手法は,従来最もよく知られた結果で既存手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-19T14:48:54Z) - The Stochastic Proximal Distance Algorithm [5.3315823983402755]
本稿では,所望の制約付き推定問題をペナルティパラメータとして回復する反復最適化手法のクラスを提案し,解析する。
我々は、最近の理論装置を拡張して有限誤差境界を確立し、収束率の完全な評価を行う。
また,本手法が一般的な学習課題のバッチバージョンより優れていることを示す。
論文 参考訳(メタデータ) (2022-10-21T22:07:28Z) - An Accelerated Doubly Stochastic Gradient Method with Faster Explicit
Model Identification [97.28167655721766]
本稿では、分散正規化損失最小化問題に対する2倍加速勾配降下法(ADSGD)を提案する。
まず、ADSGDが線形収束率を達成でき、全体的な計算複雑性を低減できることを示す。
論文 参考訳(メタデータ) (2022-08-11T22:27:22Z) - A Priori Denoising Strategies for Sparse Identification of Nonlinear
Dynamical Systems: A Comparative Study [68.8204255655161]
本研究では, 局所的およびグローバルな平滑化手法の性能と, 状態測定値の偏差について検討・比較する。
一般に,測度データセット全体を用いたグローバルな手法は,局所点の周辺に隣接するデータサブセットを用いる局所的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-01-29T23:31:25Z) - Fast and Robust Online Inference with Stochastic Gradient Descent via
Random Scaling [0.9806910643086042]
本稿では,勾配降下アルゴリズムの平均化法により推定されるパラメータのベクトルに対するオンライン推論法を提案する。
我々のアプローチはオンラインデータで完全に運用されており、機能中心極限定理によって厳格に支えられている。
論文 参考訳(メタデータ) (2021-06-06T15:38:37Z) - Research of Damped Newton Stochastic Gradient Descent Method for Neural
Network Training [6.231508838034926]
勾配降下(SGD)のような一階法は、最近ディープニューラルネットワーク(DNN)を訓練するための一般的な最適化方法です。
本稿では、平均二乗誤差(MSE)の回帰問題とクロスエントロピー損失(CEL)の分類問題に対するDNNの訓練方法として、DN-SGD(Damped Newton Descent)とGGD-DN(Gradient Descent Damped Newton)を提案する。
提案手法はパラメータのごく一部を正確に計算し,計算コストを大幅に削減し,sgdよりも高速かつ高精度な学習プロセスを実現する。
論文 参考訳(メタデータ) (2021-03-31T02:07:18Z) - Stochastic Optimization with Heavy-Tailed Noise via Accelerated Gradient
Clipping [69.9674326582747]
そこで本研究では,重み付き分散雑音を用いたスムーズな凸最適化のための,クリップ付きSSTMと呼ばれる新しい1次高速化手法を提案する。
この場合、最先端の結果を上回る新たな複雑さが証明される。
本研究は,SGDにおいて,ノイズに対する光細かな仮定を伴わずにクリッピングを施した最初の非自明な高確率複雑性境界を導出した。
論文 参考訳(メタデータ) (2020-05-21T17:05:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。