論文の概要: Second-order Neural Network Training Using Complex-step Directional
Derivative
- arxiv url: http://arxiv.org/abs/2009.07098v1
- Date: Tue, 15 Sep 2020 13:46:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 05:41:22.363219
- Title: Second-order Neural Network Training Using Complex-step Directional
Derivative
- Title(参考訳): 複雑な方向微分を用いた2次ニューラルネットワークトレーニング
- Authors: Siyuan Shen, Tianjia Shao, Kun Zhou, Chenfanfu Jiang, Feng Luo, Yin
Yang
- Abstract要約: 本稿では,2次ニューラルネットワークトレーニングのための数値アルゴリズムを提案する。
複素ステップ有限差分を用いてヘッセン計算の実践的障害に取り組む。
提案手法は,ディープラーニングと数値最適化のための新しいアルゴリズムを広範囲に導入すると考えられる。
- 参考スコア(独自算出の注目度): 41.4333906662624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While the superior performance of second-order optimization methods such as
Newton's method is well known, they are hardly used in practice for deep
learning because neither assembling the Hessian matrix nor calculating its
inverse is feasible for large-scale problems. Existing second-order methods
resort to various diagonal or low-rank approximations of the Hessian, which
often fail to capture necessary curvature information to generate a substantial
improvement. On the other hand, when training becomes batch-based (i.e.,
stochastic), noisy second-order information easily contaminates the training
procedure unless expensive safeguard is employed. In this paper, we adopt a
numerical algorithm for second-order neural network training. We tackle the
practical obstacle of Hessian calculation by using the complex-step finite
difference (CSFD) -- a numerical procedure adding an imaginary perturbation to
the function for derivative computation. CSFD is highly robust, efficient, and
accurate (as accurate as the analytic result). This method allows us to
literally apply any known second-order optimization methods for deep learning
training. Based on it, we design an effective Newton Krylov procedure. The key
mechanism is to terminate the stochastic Krylov iteration as soon as a
disturbing direction is found so that unnecessary computation can be avoided.
During the optimization, we monitor the approximation error in the Taylor
expansion to adjust the step size. This strategy combines advantages of line
search and trust region methods making our method preserves good local and
global convergency at the same time. We have tested our methods in various deep
learning tasks. The experiments show that our method outperforms exiting
methods, and it often converges one-order faster. We believe our method will
inspire a wide-range of new algorithms for deep learning and numerical
optimization.
- Abstract(参考訳): ニュートン法のような二階最適化法の優れた性能はよく知られているが、ヘッセン行列の組み立ても逆計算も大規模問題には実現できないため、深層学習にはほとんど使われない。
既存の二階法では、ヘシアンの様々な対角あるいは低ランク近似が用いられるが、これは多くの場合、かなりの改善を生み出すために必要な曲率情報の取得に失敗する。
一方、訓練がバッチベース(確率的)になると、騒がしい二階情報が高価なセーフガードを使わない限り、容易に訓練手順を汚染する。
本稿では,2次ニューラルネットワークトレーニングのための数値アルゴリズムを提案する。
複素ステップ有限差分 (CSFD) を用いて, 微分計算関数に虚摂動を付加した数値計算法により, ヘッセン計算の現実的障害に対処する。
CSFDは非常に堅牢で効率的で正確(解析結果と同じくらい正確)である。
この手法により、既知の2階最適化手法を文字通り深層学習訓練に適用できる。
それに基づいて、効果的なニュートン・クリロフ法を設計。
鍵となるメカニズムは、不必要な計算を避けるために邪魔な方向が見つかるとすぐに確率的クリロフ反復を終了することである。
最適化中,テイラー展開の近似誤差を監視し,ステップサイズを調整した。
本手法は, 回線探索と信頼領域法を併用して, 良好な局所収束とグローバル収束を同時に維持する。
我々は様々な深層学習タスクで手法をテストした。
実験の結果,本手法は出口法よりも優れており,一階収束が速いことが判明した。
本手法は,深層学習と数値最適化のための新しいアルゴリズムを広範に導入すると考えられる。
関連論文リスト
- Newton Losses: Using Curvature Information for Learning with Differentiable Algorithms [80.37846867546517]
カスタム目的の8つの異なるニューラルネットワークのトレーニング方法を示す。
我々はその2次情報を経験的フィッシャー行列を通して活用する。
ロスロスロスシブルアルゴリズムを用いて、少ない微分可能アルゴリズムに対する大幅な改善を実現する。
論文 参考訳(メタデータ) (2024-10-24T18:02:11Z) - A Computationally Efficient Sparsified Online Newton Method [48.78646010774149]
Sparsified Online Newton (SONew) はメモリ効率の良い2次アルゴリズムである。
最大で30%の高速化,3.4%の妥当性向上,80%のトレーニング損失の相対的改善を実現しています。
論文 参考訳(メタデータ) (2023-11-16T18:44:22Z) - Efficient Methods for Non-stationary Online Learning [67.3300478545554]
本稿では, 動的後悔と適応的後悔を最適化する効率的な手法を提案し, ラウンド当たりの投影回数を$mathcalO(log T)$から$ $1$まで削減した。
本手法は,パラメータフリーオンライン学習において開発された還元機構を基礎として,非定常オンライン手法に非自明なツイストを必要とする。
論文 参考訳(メタデータ) (2023-09-16T07:30:12Z) - BOME! Bilevel Optimization Made Easy: A Simple First-Order Approach [46.457298683984924]
バイレベル最適化(BO)は、さまざまな機械学習問題を解決するのに有用である。
従来の手法では、暗黙の微分を伴う低レベル最適化プロセスを通じて差別化する必要がある。
一階BOは一階情報にのみ依存し、暗黙の微分を必要としない。
論文 参考訳(メタデータ) (2022-09-19T01:51:12Z) - On the efficiency of Stochastic Quasi-Newton Methods for Deep Learning [0.0]
深部記憶ネットワークのための準ニュートン学習アルゴリズムの動作について検討する。
準ニュートンは効率が良く、よく知られたAdamの1次実行よりも性能が優れていることを示す。
論文 参考訳(メタデータ) (2022-05-18T20:53:58Z) - A Boosting Approach to Reinforcement Learning [59.46285581748018]
複雑度が状態数に依存しない意思決定プロセスにおける強化学習のための効率的なアルゴリズムについて検討する。
このような弱い学習手法の精度を向上させることができる効率的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-08-22T16:00:45Z) - Exact Stochastic Second Order Deep Learning [0.0]
ディープラーニングは、主にバックプロパゲーションの中心概念を中心に構築されたファーストオーダーメソッドによって支配される。
二階法では、一階法よりも使われない二階微分を考慮に入れる。
論文 参考訳(メタデータ) (2021-04-08T14:29:31Z) - Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth
Nonlinear TD Learning [145.54544979467872]
本稿では,各ステップごとに1つのデータポイントしか必要としない2つの単一スケールシングルループアルゴリズムを提案する。
本研究の結果は, 同時一次および二重側収束の形で表される。
論文 参考訳(メタデータ) (2020-08-23T20:36:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。