論文の概要: On the Promise of the Stochastic Generalized Gauss-Newton Method for
Training DNNs
- arxiv url: http://arxiv.org/abs/2006.02409v4
- Date: Tue, 9 Jun 2020 08:58:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 17:27:55.161382
- Title: On the Promise of the Stochastic Generalized Gauss-Newton Method for
Training DNNs
- Title(参考訳): 確率一般化ガウスニュートン法によるDNN訓練の約束について
- Authors: Matilde Gargiani, Andrea Zanelli, Moritz Diehl, Frank Hutter
- Abstract要約: 一般化されたガウスニュートン法(SGN)を用いてDNNの訓練を行う。
SGNは2次最適化法であり、効率の良い反復法であり、標準のSGDよりもはるかに少ない繰り返しを必要とすることがよく示される。
我々は,SGNが反復回数の点でSGDよりも大幅に改善されているだけでなく,実行時の点でも改善されていることを示す。
これは、私たちがTheanoディープラーニングプラットフォームで提案するSGNの効率的で使いやすく柔軟な実装によって実現されている。
- 参考スコア(独自算出の注目度): 37.96456928567548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Following early work on Hessian-free methods for deep learning, we study a
stochastic generalized Gauss-Newton method (SGN) for training DNNs. SGN is a
second-order optimization method, with efficient iterations, that we
demonstrate to often require substantially fewer iterations than standard SGD
to converge. As the name suggests, SGN uses a Gauss-Newton approximation for
the Hessian matrix, and, in order to compute an approximate search direction,
relies on the conjugate gradient method combined with forward and reverse
automatic differentiation. Despite the success of SGD and its first-order
variants, and despite Hessian-free methods based on the Gauss-Newton Hessian
approximation having been already theoretically proposed as practical methods
for training DNNs, we believe that SGN has a lot of undiscovered and yet not
fully displayed potential in big mini-batch scenarios. For this setting, we
demonstrate that SGN does not only substantially improve over SGD in terms of
the number of iterations, but also in terms of runtime. This is made possible
by an efficient, easy-to-use and flexible implementation of SGN we propose in
the Theano deep learning platform, which, unlike Tensorflow and Pytorch,
supports forward automatic differentiation. This enables researchers to further
study and improve this promising optimization technique and hopefully
reconsider stochastic second-order methods as competitive optimization
techniques for training DNNs; we also hope that the promise of SGN may lead to
forward automatic differentiation being added to Tensorflow or Pytorch. Our
results also show that in big mini-batch scenarios SGN is more robust than SGD
with respect to its hyperparameters (we never had to tune its step-size for our
benchmarks!), which eases the expensive process of hyperparameter tuning that
is instead crucial for the performance of first-order methods.
- Abstract(参考訳): 深層学習のためのヘシアンフリー手法に関する初期の研究の後、我々はDNNの訓練のための確率的一般化ガウスニュートン法(SGN)について研究した。
SGNは2次最適化法であり、効率の良い反復法であり、標準のSGDよりもはるかに少ない繰り返しを必要とすることがよく示される。
名前の通り、SGNはヘッセン行列に対してガウス・ニュートン近似を用い、近似探索方向を計算するために、前方および逆自動微分を組み合わせた共役勾配法に依存する。
SGDとその一階変種の成功にもかかわらず、ガウス・ニュートン・ヘッセン近似に基づくヘッセンフリー手法は、既に理論上はDNNの訓練方法として提案されているが、SGNには大きなミニバッチシナリオにおいて、多くの未発見かつ完全な可能性を秘めている。
そこで本研究では,SGNがSGDよりも大幅に向上するだけでなく,実行時の回数も向上することが実証された。
これは、TensorflowやPytorchとは異なり、前方自動微分をサポートするTheanoディープラーニングプラットフォームで提案する、効率的で使いやすく柔軟なSGNの実装によって実現されている。
これにより、研究者はこの有望な最適化手法をさらに研究し改善し、DNNの訓練のための競合最適化手法として確率的二階法を再考し、また、SGNの約束がTensorflowやPytorchに自動微分を加えることにつながることを期待する。
私たちの結果は、大きなミニバッチのシナリオでは、sgnがハイパーパラメーターに関してsgdよりも堅牢であることも示しています(ベンチマークのためにステップサイズをチューニングする必要はありませんでした!
関連論文リスト
- Exact, Tractable Gauss-Newton Optimization in Deep Reversible Architectures Reveal Poor Generalization [52.16435732772263]
多くのアプリケーションにおいて、ディープニューラルネットワークのトレーニングを加速する2階最適化が示されている。
しかし、二階法の一般化特性についてはいまだ議論が続いている。
我々は、Gauss-Newton (GN) の正確な更新が、ディープアーキテクチャのクラスにおいて、牽引可能な形式を取ることを初めて示す。
論文 参考訳(メタデータ) (2024-11-12T17:58:40Z) - Incremental Gauss-Newton Descent for Machine Learning [0.0]
本稿では,ガウス・ニュートン法に基づく近似2次情報を利用したグラディエントDescentアルゴリズムの修正を提案する。
Incrmental Gauss-Newton Descent (IGND)と呼ばれる新しい手法は、基本的に標準SGDと同じ計算負担を持つ。
IGNDは、少なくとも最悪の場合には、SGDと同等以上の性能を保ちながら、SGDを著しく上回る。
論文 参考訳(メタデータ) (2024-08-10T13:52:40Z) - Exact Gauss-Newton Optimization for Training Deep Neural Networks [0.0]
一般化されたガウスニュートン(GN)ヘッセン近似と低ランク線形代数を組み合わせた2階最適化アルゴリズムEGNを提案する。
線形探索,適応正則化,運動量などの改良をEGNにシームレスに追加して,アルゴリズムをさらに高速化する方法について述べる。
論文 参考訳(メタデータ) (2024-05-23T10:21:05Z) - Gauss-Newton Temporal Difference Learning with Nonlinear Function Approximation [11.925232472331494]
非線形関数近似を用いたQラーニング問題を解くため,ガウスニュートン時間差分法(GNTD)学習法を提案する。
各イテレーションにおいて、我々の手法は1つのガウスニュートン(GN)ステップを踏んで平均二乗ベルマン誤差(MSBE)の変種を最適化する。
いくつかのRLベンチマークにおいて、GNTDはTD型よりも高い報酬と高速な収束を示す。
論文 参考訳(メタデータ) (2023-02-25T14:14:01Z) - Positive-Negative Momentum: Manipulating Stochastic Gradient Noise to
Improve Generalization [89.7882166459412]
勾配雑音(SGN)は、ディープラーニングの暗黙の正規化として機能する。
深層学習を改善するためにランダムノイズを注入してSGNを人工的にシミュレートしようとした作品もある。
低計算コストでSGNをシミュレーションし、学習率やバッチサイズを変更することなく、PNM(Positive-Negative Momentum)アプローチを提案する。
論文 参考訳(メタデータ) (2021-03-31T16:08:06Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Improving predictions of Bayesian neural nets via local linearization [79.21517734364093]
ガウス・ニュートン近似は基礎となるベイズニューラルネットワーク(BNN)の局所線形化として理解されるべきである。
この線形化モデルを後部推論に使用するので、元のモデルではなく、この修正モデルを使用することも予測すべきである。
この修正された予測を"GLM predictive"と呼び、Laplace近似の共通不適合問題を効果的に解決することを示す。
論文 参考訳(メタデータ) (2020-08-19T12:35:55Z) - Deep Neural Network Learning with Second-Order Optimizers -- a Practical
Study with a Stochastic Quasi-Gauss-Newton Method [0.0]
本稿では,準ニュートン法,ガウスニュートン法,分散還元法を併用した2次準ニュートン最適化法を提案する。
ベンチマークによるSQGNの実装について検討し、その収束性と計算性能を選択された一階法と比較する。
論文 参考訳(メタデータ) (2020-04-06T23:41:41Z) - Learning to Optimize Non-Rigid Tracking [54.94145312763044]
我々は、堅牢性を改善し、解法収束を高速化するために学習可能な最適化を採用する。
まず、CNNを通じてエンドツーエンドに学習された深い特徴にアライメントデータ項を統合することにより、追跡対象をアップグレードする。
次に,プレコンディショニング手法と学習手法のギャップを,プレコンディショナを生成するためにトレーニングされたConditionNetを導入することで埋める。
論文 参考訳(メタデータ) (2020-03-27T04:40:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。