Fugu-MT 論文翻訳(概要): On the Promise of the Stochastic Generalized Gauss-Newton Method for Training DNNs

論文の概要: On the Promise of the Stochastic Generalized Gauss-Newton Method for Training DNNs

arxiv url: http://arxiv.org/abs/2006.02409v4
Date: Tue, 9 Jun 2020 08:58:08 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-25 17:27:55.161382
Title: On the Promise of the Stochastic Generalized Gauss-Newton Method for Training DNNs
Title（参考訳）: 確率一般化ガウスニュートン法によるDNN訓練の約束について
Authors: Matilde Gargiani, Andrea Zanelli, Moritz Diehl, Frank Hutter
Abstract要約: 一般化されたガウスニュートン法(SGN)を用いてDNNの訓練を行う。 SGNは2次最適化法であり、効率の良い反復法であり、標準のSGDよりもはるかに少ない繰り返しを必要とすることがよく示される。我々は,SGNが反復回数の点でSGDよりも大幅に改善されているだけでなく,実行時の点でも改善されていることを示す。これは、私たちがTheanoディープラーニングプラットフォームで提案するSGNの効率的で使いやすく柔軟な実装によって実現されている。
参考スコア（独自算出の注目度）: 37.96456928567548
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Following early work on Hessian-free methods for deep learning, we study a stochastic generalized Gauss-Newton method (SGN) for training DNNs. SGN is a second-order optimization method, with efficient iterations, that we demonstrate to often require substantially fewer iterations than standard SGD to converge. As the name suggests, SGN uses a Gauss-Newton approximation for the Hessian matrix, and, in order to compute an approximate search direction, relies on the conjugate gradient method combined with forward and reverse automatic differentiation. Despite the success of SGD and its first-order variants, and despite Hessian-free methods based on the Gauss-Newton Hessian approximation having been already theoretically proposed as practical methods for training DNNs, we believe that SGN has a lot of undiscovered and yet not fully displayed potential in big mini-batch scenarios. For this setting, we demonstrate that SGN does not only substantially improve over SGD in terms of the number of iterations, but also in terms of runtime. This is made possible by an efficient, easy-to-use and flexible implementation of SGN we propose in the Theano deep learning platform, which, unlike Tensorflow and Pytorch, supports forward automatic differentiation. This enables researchers to further study and improve this promising optimization technique and hopefully reconsider stochastic second-order methods as competitive optimization techniques for training DNNs; we also hope that the promise of SGN may lead to forward automatic differentiation being added to Tensorflow or Pytorch. Our results also show that in big mini-batch scenarios SGN is more robust than SGD with respect to its hyperparameters (we never had to tune its step-size for our benchmarks!), which eases the expensive process of hyperparameter tuning that is instead crucial for the performance of first-order methods.
Abstract（参考訳）: 深層学習のためのヘシアンフリー手法に関する初期の研究の後、我々はDNNの訓練のための確率的一般化ガウスニュートン法(SGN)について研究した。 SGNは2次最適化法であり、効率の良い反復法であり、標準のSGDよりもはるかに少ない繰り返しを必要とすることがよく示される。名前の通り、SGNはヘッセン行列に対してガウス・ニュートン近似を用い、近似探索方向を計算するために、前方および逆自動微分を組み合わせた共役勾配法に依存する。 SGDとその一階変種の成功にもかかわらず、ガウス・ニュートン・ヘッセン近似に基づくヘッセンフリー手法は、既に理論上はDNNの訓練方法として提案されているが、SGNには大きなミニバッチシナリオにおいて、多くの未発見かつ完全な可能性を秘めている。そこで本研究では,SGNがSGDよりも大幅に向上するだけでなく,実行時の回数も向上することが実証された。これは、TensorflowやPytorchとは異なり、前方自動微分をサポートするTheanoディープラーニングプラットフォームで提案する、効率的で使いやすく柔軟なSGNの実装によって実現されている。これにより、研究者はこの有望な最適化手法をさらに研究し改善し、DNNの訓練のための競合最適化手法として確率的二階法を再考し、また、SGNの約束がTensorflowやPytorchに自動微分を加えることにつながることを期待する。私たちの結果は、大きなミニバッチのシナリオでは、sgnがハイパーパラメーターに関してsgdよりも堅牢であることも示しています(ベンチマークのためにステップサイズをチューニングする必要はありませんでした!

関連論文リスト

Exact, Tractable Gauss-Newton Optimization in Deep Reversible Architectures Reveal Poor Generalization [52.16435732772263]
多くのアプリケーションにおいて、ディープニューラルネットワークのトレーニングを加速する2階最適化が示されている。しかし、二階法の一般化特性についてはいまだ議論が続いている。我々は、Gauss-Newton (GN) の正確な更新が、ディープアーキテクチャのクラスにおいて、牽引可能な形式を取ることを初めて示す。
論文参考訳（メタデータ） (2024-11-12T17:58:40Z)
Incremental Gauss-Newton Descent for Machine Learning [0.0]
本稿では,ガウス・ニュートン法に基づく近似2次情報を利用したグラディエントDescentアルゴリズムの修正を提案する。 Incrmental Gauss-Newton Descent (IGND)と呼ばれる新しい手法は、基本的に標準SGDと同じ計算負担を持つ。 IGNDは、少なくとも最悪の場合には、SGDと同等以上の性能を保ちながら、SGDを著しく上回る。
論文参考訳（メタデータ） (2024-08-10T13:52:40Z)
Exact Gauss-Newton Optimization for Training Deep Neural Networks [0.0]
一般化されたガウスニュートン(GN)ヘッセン近似と低ランク線形代数を組み合わせた2階最適化アルゴリズムEGNを提案する。線形探索,適応正則化,運動量などの改良をEGNにシームレスに追加して,アルゴリズムをさらに高速化する方法について述べる。
論文参考訳（メタデータ） (2024-05-23T10:21:05Z)
Gauss-Newton Temporal Difference Learning with Nonlinear Function Approximation [11.925232472331494]
非線形関数近似を用いたQラーニング問題を解くため,ガウスニュートン時間差分法(GNTD)学習法を提案する。各イテレーションにおいて、我々の手法は1つのガウスニュートン(GN)ステップを踏んで平均二乗ベルマン誤差(MSBE)の変種を最適化する。いくつかのRLベンチマークにおいて、GNTDはTD型よりも高い報酬と高速な収束を示す。
論文参考訳（メタデータ） (2023-02-25T14:14:01Z)
Adan: Adaptive Nesterov Momentum Algorithm for Faster Optimizing Deep Models [134.83964935755964]
ディープラーニングでは、異なる種類のディープネットワークは典型的に異なる補間を必要とし、複数のトライアル後に選択する必要がある。本稿では,この問題を解消し,モデルトレーニング速度を継続的に改善するために,ADAtive Nesterov運動量変換器を提案する。
論文参考訳（メタデータ） (2022-08-13T16:04:39Z)
Positive-Negative Momentum: Manipulating Stochastic Gradient Noise to Improve Generalization [89.7882166459412]
勾配雑音(SGN)は、ディープラーニングの暗黙の正規化として機能する。深層学習を改善するためにランダムノイズを注入してSGNを人工的にシミュレートしようとした作品もある。低計算コストでSGNをシミュレーションし、学習率やバッチサイズを変更することなく、PNM(Positive-Negative Momentum)アプローチを提案する。
論文参考訳（メタデータ） (2021-03-31T16:08:06Z)
Direction Matters: On the Implicit Bias of Stochastic Gradient Descent with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。 SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文参考訳（メタデータ） (2020-11-04T21:07:52Z)
Improving predictions of Bayesian neural nets via local linearization [79.21517734364093]
ガウス・ニュートン近似は基礎となるベイズニューラルネットワーク(BNN)の局所線形化として理解されるべきである。この線形化モデルを後部推論に使用するので、元のモデルではなく、この修正モデルを使用することも予測すべきである。この修正された予測を"GLM predictive"と呼び、Laplace近似の共通不適合問題を効果的に解決することを示す。
論文参考訳（メタデータ） (2020-08-19T12:35:55Z)
Deep Neural Network Learning with Second-Order Optimizers -- a Practical Study with a Stochastic Quasi-Gauss-Newton Method [0.0]
本稿では,準ニュートン法,ガウスニュートン法,分散還元法を併用した2次準ニュートン最適化法を提案する。ベンチマークによるSQGNの実装について検討し、その収束性と計算性能を選択された一階法と比較する。
論文参考訳（メタデータ） (2020-04-06T23:41:41Z)
Learning to Optimize Non-Rigid Tracking [54.94145312763044]
我々は、堅牢性を改善し、解法収束を高速化するために学習可能な最適化を採用する。まず、CNNを通じてエンドツーエンドに学習された深い特徴にアライメントデータ項を統合することにより、追跡対象をアップグレードする。次に,プレコンディショニング手法と学習手法のギャップを,プレコンディショナを生成するためにトレーニングされたConditionNetを導入することで埋める。
論文参考訳（メタデータ） (2020-03-27T04:40:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。