論文の概要: On the efficiency of Stochastic Quasi-Newton Methods for Deep Learning
- arxiv url: http://arxiv.org/abs/2205.09121v2
- Date: Wed, 4 Oct 2023 14:44:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 22:49:57.495487
- Title: On the efficiency of Stochastic Quasi-Newton Methods for Deep Learning
- Title(参考訳): 確率的準ニュートン法の深層学習における効率性について
- Authors: Mahsa Yousefi, Angeles Martinez
- Abstract要約: 深部記憶ネットワークのための準ニュートン学習アルゴリズムの動作について検討する。
準ニュートンは効率が良く、よく知られたAdamの1次実行よりも性能が優れていることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While first-order methods are popular for solving optimization problems that
arise in large-scale deep learning problems, they come with some acute
deficiencies. To diminish such shortcomings, there has been recent interest in
applying second-order methods such as quasi-Newton based methods which
construct Hessians approximations using only gradient information. The main
focus of our work is to study the behaviour of stochastic quasi-Newton
algorithms for training deep neural networks. We have analyzed the performance
of two well-known quasi-Newton updates, the limited memory
Broyden-Fletcher-Goldfarb-Shanno (BFGS) and the Symmetric Rank One (SR1). This
study fills a gap concerning the real performance of both updates and analyzes
whether more efficient training is obtained when using the more robust BFGS
update or the cheaper SR1 formula which allows for indefinite Hessian
approximations and thus can potentially help to better navigate the
pathological saddle points present in the non-convex loss functions found in
deep learning. We present and discuss the results of an extensive experimental
study which includes the effect of batch normalization and network's
architecture, the limited memory parameter, the batch size and the type of
sampling strategy. we show that stochastic quasi-Newton optimizers are
efficient and able to outperform in some instances the well-known first-order
Adam optimizer run with the optimal combination of its numerous
hyperparameters.
- Abstract(参考訳): 大規模深層学習問題で発生する最適化問題では,一階法が一般的だが,深刻な欠陥がある。
このような欠点を減らすために、勾配情報のみを用いてヘッセン近似を構成する準ニュートン法のような二階法を適用することには近年関心が集まっている。
我々の研究の主な焦点は、ディープニューラルネットワークを訓練するための確率的準ニュートンアルゴリズムの振る舞いを研究することです。
我々は、BFGS(Broyden-Fletcher-Goldfarb-Shanno)とSR1(Symmetric Rank One)の2つの有名な準ニュートン更新の性能を分析した。
本研究は、両更新の実際の性能に関するギャップを埋め、より堅牢なBFGS更新または不確定なヘッセン近似を許容するより安価なSR1公式を用いることで、深層学習で見られる非凸損失関数における病理的サドル点のナビゲートに役立てることができるかどうかを解析する。
本稿では,バッチ正規化とネットワークアーキテクチャ,限られたメモリパラメータ,バッチサイズ,サンプリング戦略の種類などを含む広範な実験結果について述べる。
確率的準ニュートンオプティマイザは効率が良く、よく知られたAdamオプティマイザが多数のハイパーパラメータを最適に組み合わせて実行する場合でも性能が優れていることを示す。
関連論文リスト
- A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。
これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。
我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文 参考訳(メタデータ) (2024-10-14T12:10:06Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Learning Large-scale Neural Fields via Context Pruned Meta-Learning [60.93679437452872]
本稿では,大規模ニューラルネットワーク学習のための最適化に基づくメタラーニング手法を提案する。
メタテスト時間における勾配再スケーリングは、非常に高品質なニューラルネットワークの学習を可能にすることを示す。
我々のフレームワークは、モデルに依存しない、直感的で、実装が容易であり、幅広い信号に対する大幅な再構成改善を示す。
論文 参考訳(メタデータ) (2023-02-01T17:32:16Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - BOME! Bilevel Optimization Made Easy: A Simple First-Order Approach [46.457298683984924]
バイレベル最適化(BO)は、さまざまな機械学習問題を解決するのに有用である。
従来の手法では、暗黙の微分を伴う低レベル最適化プロセスを通じて差別化する必要がある。
一階BOは一階情報にのみ依存し、暗黙の微分を必要としない。
論文 参考訳(メタデータ) (2022-09-19T01:51:12Z) - Simple Stochastic and Online Gradient DescentAlgorithms for Pairwise
Learning [65.54757265434465]
ペアワイズ学習(Pairwise learning)とは、損失関数がペアインスタンスに依存するタスクをいう。
オンライン降下(OGD)は、ペアワイズ学習でストリーミングデータを処理する一般的なアプローチである。
本稿では,ペアワイズ学習のための手法について,シンプルでオンラインな下降を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:10:48Z) - SHINE: SHaring the INverse Estimate from the forward pass for bi-level
optimization and implicit models [15.541264326378366]
近年,深層ニューラルネットワークの深度を高める手法として暗黙の深度学習が登場している。
トレーニングは双レベル問題として実行され、その計算複雑性は巨大なヤコビ行列の反復反転によって部分的に駆動される。
本稿では,この計算ボトルネックに対処する新たな手法を提案する。
論文 参考訳(メタデータ) (2021-06-01T15:07:34Z) - Research of Damped Newton Stochastic Gradient Descent Method for Neural
Network Training [6.231508838034926]
勾配降下(SGD)のような一階法は、最近ディープニューラルネットワーク(DNN)を訓練するための一般的な最適化方法です。
本稿では、平均二乗誤差(MSE)の回帰問題とクロスエントロピー損失(CEL)の分類問題に対するDNNの訓練方法として、DN-SGD(Damped Newton Descent)とGGD-DN(Gradient Descent Damped Newton)を提案する。
提案手法はパラメータのごく一部を正確に計算し,計算コストを大幅に削減し,sgdよりも高速かつ高精度な学習プロセスを実現する。
論文 参考訳(メタデータ) (2021-03-31T02:07:18Z) - Second-order Neural Network Training Using Complex-step Directional
Derivative [41.4333906662624]
本稿では,2次ニューラルネットワークトレーニングのための数値アルゴリズムを提案する。
複素ステップ有限差分を用いてヘッセン計算の実践的障害に取り組む。
提案手法は,ディープラーニングと数値最適化のための新しいアルゴリズムを広範囲に導入すると考えられる。
論文 参考訳(メタデータ) (2020-09-15T13:46:57Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Deep Neural Network Learning with Second-Order Optimizers -- a Practical
Study with a Stochastic Quasi-Gauss-Newton Method [0.0]
本稿では,準ニュートン法,ガウスニュートン法,分散還元法を併用した2次準ニュートン最適化法を提案する。
ベンチマークによるSQGNの実装について検討し、その収束性と計算性能を選択された一階法と比較する。
論文 参考訳(メタデータ) (2020-04-06T23:41:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。