論文の概要: Symmetric Rank-One Quasi-Newton Methods for Deep Learning Using Cubic Regularization
- arxiv url: http://arxiv.org/abs/2502.12298v1
- Date: Mon, 17 Feb 2025 20:20:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:07:26.351415
- Title: Symmetric Rank-One Quasi-Newton Methods for Deep Learning Using Cubic Regularization
- Title(参考訳): キュービック正規化を用いた深層学習のための対称ランクワン準ニュートン法
- Authors: Aditya Ranganath, Mukesh Singhal, Roummel Marcia,
- Abstract要約: アダムやアダグラッドのような一階降下や他の一階変種は、ディープラーニングの分野で一般的に使われている。
しかし、これらの手法は曲率情報を活用しない。
準ニュートン法は、以前計算された低ヘッセン近似を再利用する。
- 参考スコア(独自算出の注目度): 0.5120567378386615
- License:
- Abstract: Stochastic gradient descent and other first-order variants, such as Adam and AdaGrad, are commonly used in the field of deep learning due to their computational efficiency and low-storage memory requirements. However, these methods do not exploit curvature information. Consequently, iterates can converge to saddle points or poor local minima. On the other hand, Quasi-Newton methods compute Hessian approximations which exploit this information with a comparable computational budget. Quasi-Newton methods re-use previously computed iterates and gradients to compute a low-rank structured update. The most widely used quasi-Newton update is the L-BFGS, which guarantees a positive semi-definite Hessian approximation, making it suitable in a line search setting. However, the loss functions in DNNs are non-convex, where the Hessian is potentially non-positive definite. In this paper, we propose using a limited-memory symmetric rank-one quasi-Newton approach which allows for indefinite Hessian approximations, enabling directions of negative curvature to be exploited. Furthermore, we use a modified adaptive regularized cubics approach, which generates a sequence of cubic subproblems that have closed-form solutions with suitable regularization choices. We investigate the performance of our proposed method on autoencoders and feed-forward neural network models and compare our approach to state-of-the-art first-order adaptive stochastic methods as well as other quasi-Newton methods.x
- Abstract(参考訳): 確率勾配降下やAdamやAdaGradのような一階変種は、計算効率と低記憶メモリ要求のためにディープラーニングの分野で一般的に使われている。
しかし、これらの手法は曲率情報を活用しない。
その結果、イテレーションはサドルポイントやローカルミニマに収束する。
一方、準ニュートン法は、この情報に匹敵する計算予算で活用するヘッセン近似を計算する。
Quasi-Newtonメソッドは、以前計算された反復と勾配を再利用して、低ランクな構造化された更新を計算する。
最も広く使われている準ニュートンの更新はL-BFGSであり、正の半定 Hess 近似が保証され、線探索の設定に適している。
しかし、DNNの損失関数は非凸であり、ヘッセン関数は非正定値である可能性がある。
本稿では,不確定なヘッセン近似を可能とし,負曲率の方向を活用できる限定メモリ対称階数1準ニュートン法を提案する。
さらに、適応正則化立方体アプローチを用いて、適切な正則化選択を伴う閉形式解を持つ立方体のサブプロブレム列を生成する。
本稿では,提案手法のオートエンコーダとフィードフォワードニューラルネットワークモデルの性能について検討し,最先端の1次適応確率法と準ニュートン法との比較を行った。
関連論文リスト
- Fast Unconstrained Optimization via Hessian Averaging and Adaptive Gradient Sampling Methods [0.3222802562733786]
ヘシアン・アブラッシングに基づくサブサンプルニュートン法による有限サム予測対象関数の最小化について検討する。
これらの方法は不有効であり、ヘッセン近似の固定コストがかかる。
本稿では,新しい解析手法を提案し,その実用化に向けた課題を提案する。
論文 参考訳(メタデータ) (2024-08-14T03:27:48Z) - An Adaptive Stochastic Gradient Method with Non-negative Gauss-Newton Stepsizes [17.804065824245402]
機械学習の応用では、各損失関数は非負であり、平方根とその実数値平方根の構成として表すことができる。
本稿では, ガウス・ニュートン法やレフスカルト法を適用して, 滑らかだが非負な関数の平均を最小化する方法を示す。
論文 参考訳(メタデータ) (2024-07-05T08:53:06Z) - Incremental Quasi-Newton Methods with Faster Superlinear Convergence
Rates [50.36933471975506]
各成分関数が強く凸であり、リプシッツ連続勾配とヘシアンを持つ有限和最適化問題を考える。
最近提案されたインクリメンタル準ニュートン法は、BFGSの更新に基づいて、局所的な超線形収束率を達成する。
本稿では、対称ランク1更新をインクリメンタルフレームワークに組み込むことにより、より効率的な準ニュートン法を提案する。
論文 参考訳(メタデータ) (2024-02-04T05:54:51Z) - Stochastic Gradient Descent for Gaussian Processes Done Right [86.83678041846971]
emphdone right -- 最適化とカーネルコミュニティからの具体的な洞察を使用するという意味で -- が、勾配降下は非常に効果的であることを示している。
本稿では,直感的に設計を記述し,設計選択について説明する。
本手法は,分子結合親和性予測のための最先端グラフニューラルネットワークと同程度にガウス過程の回帰を配置する。
論文 参考訳(メタデータ) (2023-10-31T16:15:13Z) - Variance reduction techniques for stochastic proximal point algorithms [5.374800961359305]
そこで本研究では,近点アルゴリズムにおける分散低減手法の統一化研究を提案する。
我々は,SVRG,SAGA,およびそれらの変種の近位バージョンを提供するために特定可能な,汎用的近位アルゴリズムを提案する。
本実験は, 勾配法よりも近似分散還元法の利点を実証する。
論文 参考訳(メタデータ) (2023-08-18T05:11:50Z) - Robust empirical risk minimization via Newton's method [9.797319790710711]
実験的リスク最小化のためのニュートン法の新しい変種について検討した。
目的関数の勾配と Hessian は、ロバストな推定器に置き換えられる。
また,共役勾配法に基づくニュートン方向のロバストな解を求めるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T18:54:54Z) - Statistical Inference of Constrained Stochastic Optimization via Sketched Sequential Quadratic Programming [53.63469275932989]
制約付き非線形最適化問題のオンライン統計的推測を考察する。
これらの問題を解決するために、逐次二次計画法(StoSQP)を適用する。
論文 参考訳(メタデータ) (2022-05-27T00:34:03Z) - Hessian Averaging in Stochastic Newton Methods Achieves Superlinear
Convergence [69.65563161962245]
ニュートン法を用いて,滑らかで強凸な目的関数を考える。
最適段階において局所収束に遷移する普遍重み付き平均化スキームが存在することを示す。
論文 参考訳(メタデータ) (2022-04-20T07:14:21Z) - Nys-Curve: Nystr\"om-Approximated Curvature for Stochastic Optimization [20.189732632410024]
準ニュートン法は, セカント方程式を用いてヘッセンを近似することにより曲率情報を提供する。
線形収束率を持つ凸関数の大規模な経験的リスクに対するニュートンステップに基づくDP最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-16T14:04:51Z) - Newton-LESS: Sparsification without Trade-offs for the Sketched Newton
Update [88.73437209862891]
2階最適化において、潜在的なボトルネックは繰り返しごとに最適化関数のヘシアン行列を計算することである。
本稿では,ガウススケッチ行列を劇的に分散させることにより,スケッチの計算コストを大幅に削減できることを示す。
ニュートン=ルネッサはガウス埋め込みとほぼ同じ問題に依存しない局所収束率を享受していることを証明した。
論文 参考訳(メタデータ) (2021-07-15T17:33:05Z) - Disentangling the Gauss-Newton Method and Approximate Inference for
Neural Networks [96.87076679064499]
我々は一般化されたガウスニュートンを解き、ベイズ深層学習の近似推論を行う。
ガウス・ニュートン法は基礎となる確率モデルを大幅に単純化する。
ガウス過程への接続は、新しい関数空間推論アルゴリズムを可能にする。
論文 参考訳(メタデータ) (2020-07-21T17:42:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。