論文の概要: On the Promise of the Stochastic Generalized Gauss-Newton Method for
Training DNNs
- arxiv url: http://arxiv.org/abs/2006.02409v4
- Date: Tue, 9 Jun 2020 08:58:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 17:27:55.161382
- Title: On the Promise of the Stochastic Generalized Gauss-Newton Method for
Training DNNs
- Title(参考訳): 確率一般化ガウスニュートン法によるDNN訓練の約束について
- Authors: Matilde Gargiani, Andrea Zanelli, Moritz Diehl, Frank Hutter
- Abstract要約: 一般化されたガウスニュートン法(SGN)を用いてDNNの訓練を行う。
SGNは2次最適化法であり、効率の良い反復法であり、標準のSGDよりもはるかに少ない繰り返しを必要とすることがよく示される。
我々は,SGNが反復回数の点でSGDよりも大幅に改善されているだけでなく,実行時の点でも改善されていることを示す。
これは、私たちがTheanoディープラーニングプラットフォームで提案するSGNの効率的で使いやすく柔軟な実装によって実現されている。
- 参考スコア(独自算出の注目度): 37.96456928567548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Following early work on Hessian-free methods for deep learning, we study a
stochastic generalized Gauss-Newton method (SGN) for training DNNs. SGN is a
second-order optimization method, with efficient iterations, that we
demonstrate to often require substantially fewer iterations than standard SGD
to converge. As the name suggests, SGN uses a Gauss-Newton approximation for
the Hessian matrix, and, in order to compute an approximate search direction,
relies on the conjugate gradient method combined with forward and reverse
automatic differentiation. Despite the success of SGD and its first-order
variants, and despite Hessian-free methods based on the Gauss-Newton Hessian
approximation having been already theoretically proposed as practical methods
for training DNNs, we believe that SGN has a lot of undiscovered and yet not
fully displayed potential in big mini-batch scenarios. For this setting, we
demonstrate that SGN does not only substantially improve over SGD in terms of
the number of iterations, but also in terms of runtime. This is made possible
by an efficient, easy-to-use and flexible implementation of SGN we propose in
the Theano deep learning platform, which, unlike Tensorflow and Pytorch,
supports forward automatic differentiation. This enables researchers to further
study and improve this promising optimization technique and hopefully
reconsider stochastic second-order methods as competitive optimization
techniques for training DNNs; we also hope that the promise of SGN may lead to
forward automatic differentiation being added to Tensorflow or Pytorch. Our
results also show that in big mini-batch scenarios SGN is more robust than SGD
with respect to its hyperparameters (we never had to tune its step-size for our
benchmarks!), which eases the expensive process of hyperparameter tuning that
is instead crucial for the performance of first-order methods.
- Abstract(参考訳): 深層学習のためのヘシアンフリー手法に関する初期の研究の後、我々はDNNの訓練のための確率的一般化ガウスニュートン法(SGN)について研究した。
SGNは2次最適化法であり、効率の良い反復法であり、標準のSGDよりもはるかに少ない繰り返しを必要とすることがよく示される。
名前の通り、SGNはヘッセン行列に対してガウス・ニュートン近似を用い、近似探索方向を計算するために、前方および逆自動微分を組み合わせた共役勾配法に依存する。
SGDとその一階変種の成功にもかかわらず、ガウス・ニュートン・ヘッセン近似に基づくヘッセンフリー手法は、既に理論上はDNNの訓練方法として提案されているが、SGNには大きなミニバッチシナリオにおいて、多くの未発見かつ完全な可能性を秘めている。
そこで本研究では,SGNがSGDよりも大幅に向上するだけでなく,実行時の回数も向上することが実証された。
これは、TensorflowやPytorchとは異なり、前方自動微分をサポートするTheanoディープラーニングプラットフォームで提案する、効率的で使いやすく柔軟なSGNの実装によって実現されている。
これにより、研究者はこの有望な最適化手法をさらに研究し改善し、DNNの訓練のための競合最適化手法として確率的二階法を再考し、また、SGNの約束がTensorflowやPytorchに自動微分を加えることにつながることを期待する。
私たちの結果は、大きなミニバッチのシナリオでは、sgnがハイパーパラメーターに関してsgdよりも堅牢であることも示しています(ベンチマークのためにステップサイズをチューニングする必要はありませんでした!
関連論文リスト
- Layer-wise Adaptive Step-Sizes for Stochastic First-Order Methods for
Deep Learning [8.173034693197351]
深層学習における一階最適化のための新しい階層ごとの適応的なステップサイズ手順を提案する。
提案手法は,ディープニューラルネットワーク(DNN)におけるヘシアン対角ブロックに含まれる層次曲率情報を用いて,各層に対する適応的なステップサイズ(LR)を算出する。
数値実験により、SGDの運動量とAdamWと、提案した層ごとのステップサイズを組み合わせることで、効率的なLRスケジュールを選択できることが示されている。
論文 参考訳(メタデータ) (2023-05-23T04:12:55Z) - Rethinking Gauss-Newton for learning over-parameterized models [14.780386419851956]
まず, 条件改善によるGDよりも高速な収束率を示す連続時間限界において, GNのグローバル収束結果を確立する。
次に,GNの手法の暗黙的偏見を調べるために,合成回帰タスクに関する実証的研究を行った。
論文 参考訳(メタデータ) (2023-02-06T16:18:48Z) - Scalable Variational Gaussian Processes via Harmonic Kernel
Decomposition [54.07797071198249]
汎用性を維持しつつ高い忠実度近似を提供する,スケーラブルな変分ガウス過程近似を導入する。
様々な回帰問題や分類問題において,本手法は変換やリフレクションなどの入力空間対称性を活用できることを実証する。
提案手法は, 純粋なGPモデルのうち, CIFAR-10 の最先端化を実現する。
論文 参考訳(メタデータ) (2021-06-10T18:17:57Z) - Positive-Negative Momentum: Manipulating Stochastic Gradient Noise to
Improve Generalization [89.7882166459412]
勾配雑音(SGN)は、ディープラーニングの暗黙の正規化として機能する。
深層学習を改善するためにランダムノイズを注入してSGNを人工的にシミュレートしようとした作品もある。
低計算コストでSGNをシミュレーションし、学習率やバッチサイズを変更することなく、PNM(Positive-Negative Momentum)アプローチを提案する。
論文 参考訳(メタデータ) (2021-03-31T16:08:06Z) - Research of Damped Newton Stochastic Gradient Descent Method for Neural
Network Training [6.231508838034926]
勾配降下(SGD)のような一階法は、最近ディープニューラルネットワーク(DNN)を訓練するための一般的な最適化方法です。
本稿では、平均二乗誤差(MSE)の回帰問題とクロスエントロピー損失(CEL)の分類問題に対するDNNの訓練方法として、DN-SGD(Damped Newton Descent)とGGD-DN(Gradient Descent Damped Newton)を提案する。
提案手法はパラメータのごく一部を正確に計算し,計算コストを大幅に削減し,sgdよりも高速かつ高精度な学習プロセスを実現する。
論文 参考訳(メタデータ) (2021-03-31T02:07:18Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Improving predictions of Bayesian neural nets via local linearization [79.21517734364093]
ガウス・ニュートン近似は基礎となるベイズニューラルネットワーク(BNN)の局所線形化として理解されるべきである。
この線形化モデルを後部推論に使用するので、元のモデルではなく、この修正モデルを使用することも予測すべきである。
この修正された予測を"GLM predictive"と呼び、Laplace近似の共通不適合問題を効果的に解決することを示す。
論文 参考訳(メタデータ) (2020-08-19T12:35:55Z) - Deep Neural Network Learning with Second-Order Optimizers -- a Practical
Study with a Stochastic Quasi-Gauss-Newton Method [0.0]
本稿では,準ニュートン法,ガウスニュートン法,分散還元法を併用した2次準ニュートン最適化法を提案する。
ベンチマークによるSQGNの実装について検討し、その収束性と計算性能を選択された一階法と比較する。
論文 参考訳(メタデータ) (2020-04-06T23:41:41Z) - Learning to Optimize Non-Rigid Tracking [54.94145312763044]
我々は、堅牢性を改善し、解法収束を高速化するために学習可能な最適化を採用する。
まず、CNNを通じてエンドツーエンドに学習された深い特徴にアライメントデータ項を統合することにより、追跡対象をアップグレードする。
次に,プレコンディショニング手法と学習手法のギャップを,プレコンディショナを生成するためにトレーニングされたConditionNetを導入することで埋める。
論文 参考訳(メタデータ) (2020-03-27T04:40:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。