論文の概要: Exact Stochastic Second Order Deep Learning
- arxiv url: http://arxiv.org/abs/2104.03804v1
- Date: Thu, 8 Apr 2021 14:29:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-09 13:18:07.797140
- Title: Exact Stochastic Second Order Deep Learning
- Title(参考訳): 厳密な確率的二階深層学習
- Authors: Fares B. Mehouachi, Chaouki Kasmi
- Abstract要約: ディープラーニングは、主にバックプロパゲーションの中心概念を中心に構築されたファーストオーダーメソッドによって支配される。
二階法では、一階法よりも使われない二階微分を考慮に入れる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Optimization in Deep Learning is mainly dominated by first-order methods
which are built around the central concept of backpropagation. Second-order
optimization methods, which take into account the second-order derivatives are
far less used despite superior theoretical properties. This inadequacy of
second-order methods stems from its exorbitant computational cost, poor
performance, and the ineluctable non-convex nature of Deep Learning. Several
attempts were made to resolve the inadequacy of second-order optimization
without reaching a cost-effective solution, much less an exact solution. In
this work, we show that this long-standing problem in Deep Learning could be
solved in the stochastic case, given a suitable regularization of the neural
network. Interestingly, we provide an expression of the stochastic Hessian and
its exact eigenvalues. We provide a closed-form formula for the exact
stochastic second-order Newton direction, we solve the non-convexity issue and
adjust our exact solution to favor flat minima through regularization and
spectral adjustment. We test our exact stochastic second-order method on
popular datasets and reveal its adequacy for Deep Learning.
- Abstract(参考訳): ディープラーニングの最適化は主に、バックプロパゲーションの中心的な概念を中心に構築された一階法に支配されている。
二階微分を考慮した二階最適化法は、優れた理論的性質にもかかわらず、はるかに使われない。
この二階法の不適切さは、その計算コスト、性能の低さ、そしてディープラーニングの非凸性に起因する。
コスト効率のよい解に到達することなく、二階最適化の不適切さを解決するために、いくつかの試みが行われた。
本研究では,ニューラルネットワークの適切な正規化を前提として,この長期にわたる深層学習の問題を確率論的に解くことができることを示す。
興味深いことに、確率的ヘッシアンとその正確な固有値の表現を提供する。
非凸性問題を解き、正則化とスペクトル調整により平坦な最小値を求めるための正確な解を調整した。
一般的なデータセット上での確率的二階法を正確にテストし,その深層学習への適性を明らかにする。
関連論文リスト
- A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。
これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。
我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文 参考訳(メタデータ) (2024-10-14T12:10:06Z) - Stochastic Zeroth-Order Optimization under Strongly Convexity and Lipschitz Hessian: Minimax Sample Complexity [59.75300530380427]
本稿では,アルゴリズムが検索対象関数の雑音評価にのみアクセス可能な2次スムーズかつ強い凸関数を最適化する問題を考察する。
本研究は, ミニマックス単純後悔率について, 一致した上界と下界を発達させることにより, 初めて厳密な評価を行ったものである。
論文 参考訳(メタデータ) (2024-06-28T02:56:22Z) - Discretize Relaxed Solution of Spectral Clustering via a Non-Heuristic
Algorithm [77.53604156112144]
我々は、元の問題と離散化アルゴリズムを橋渡しする1次項を開発する。
非ヒューリスティック法は元のグラフ切断問題を認識しているため、最終的な離散解の方が信頼性が高い。
論文 参考訳(メタデータ) (2023-10-19T13:57:38Z) - A deep learning method for solving stochastic optimal control problems driven by fully-coupled FBSDEs [1.0703175070560689]
最初にこの問題をStackelberg微分ゲーム問題(リーダー-フォロワー問題)に変換する。
ユーティリティーモデルによる投資消費問題の2つの例を計算した。
その結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-04-12T13:31:19Z) - On the Benefits of Large Learning Rates for Kernel Methods [110.03020563291788]
本稿では,カーネル手法のコンテキストにおいて,現象を正確に特徴付けることができることを示す。
分離可能なヒルベルト空間における2次対象の最小化を考慮し、早期停止の場合、学習速度の選択が得られた解のスペクトル分解に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2022-02-28T13:01:04Z) - Adaptive First- and Second-Order Algorithms for Large-Scale Machine
Learning [3.0204520109309843]
機械学習における連続最適化問題に対処する一階法と二階法を考察する。
一階述語の場合、半決定論的から二次正規化への遷移の枠組みを提案する。
本稿では,適応的なサンプリングと適応的なステップサイズを持つ新しい1次アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-11-29T18:10:00Z) - Doubly Adaptive Scaled Algorithm for Machine Learning Using Second-Order
Information [37.70729542263343]
本稿では,大規模機械学習問題に対する適応最適化アルゴリズムを提案する。
我々の手法は方向とステップサイズを動的に適応させる。
我々の手法は退屈なチューニング率チューニングを必要としない。
論文 参考訳(メタデータ) (2021-09-11T06:39:50Z) - High Probability Complexity Bounds for Non-Smooth Stochastic Optimization with Heavy-Tailed Noise [51.31435087414348]
アルゴリズムが高い確率で小さな客観的残差を与えることを理論的に保証することが不可欠である。
非滑らか凸最適化の既存の方法は、信頼度に依存した複雑性境界を持つ。
そこで我々は,勾配クリッピングを伴う2つの手法に対して,新たなステップサイズルールを提案する。
論文 参考訳(メタデータ) (2021-06-10T17:54:21Z) - SHINE: SHaring the INverse Estimate from the forward pass for bi-level
optimization and implicit models [15.541264326378366]
近年,深層ニューラルネットワークの深度を高める手法として暗黙の深度学習が登場している。
トレーニングは双レベル問題として実行され、その計算複雑性は巨大なヤコビ行列の反復反転によって部分的に駆動される。
本稿では,この計算ボトルネックに対処する新たな手法を提案する。
論文 参考訳(メタデータ) (2021-06-01T15:07:34Z) - Second-order Neural Network Training Using Complex-step Directional
Derivative [41.4333906662624]
本稿では,2次ニューラルネットワークトレーニングのための数値アルゴリズムを提案する。
複素ステップ有限差分を用いてヘッセン計算の実践的障害に取り組む。
提案手法は,ディープラーニングと数値最適化のための新しいアルゴリズムを広範囲に導入すると考えられる。
論文 参考訳(メタデータ) (2020-09-15T13:46:57Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。