論文の概要: Exact Stochastic Second Order Deep Learning
- arxiv url: http://arxiv.org/abs/2104.03804v1
- Date: Thu, 8 Apr 2021 14:29:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-09 13:18:07.797140
- Title: Exact Stochastic Second Order Deep Learning
- Title(参考訳): 厳密な確率的二階深層学習
- Authors: Fares B. Mehouachi, Chaouki Kasmi
- Abstract要約: ディープラーニングは、主にバックプロパゲーションの中心概念を中心に構築されたファーストオーダーメソッドによって支配される。
二階法では、一階法よりも使われない二階微分を考慮に入れる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Optimization in Deep Learning is mainly dominated by first-order methods
which are built around the central concept of backpropagation. Second-order
optimization methods, which take into account the second-order derivatives are
far less used despite superior theoretical properties. This inadequacy of
second-order methods stems from its exorbitant computational cost, poor
performance, and the ineluctable non-convex nature of Deep Learning. Several
attempts were made to resolve the inadequacy of second-order optimization
without reaching a cost-effective solution, much less an exact solution. In
this work, we show that this long-standing problem in Deep Learning could be
solved in the stochastic case, given a suitable regularization of the neural
network. Interestingly, we provide an expression of the stochastic Hessian and
its exact eigenvalues. We provide a closed-form formula for the exact
stochastic second-order Newton direction, we solve the non-convexity issue and
adjust our exact solution to favor flat minima through regularization and
spectral adjustment. We test our exact stochastic second-order method on
popular datasets and reveal its adequacy for Deep Learning.
- Abstract(参考訳): ディープラーニングの最適化は主に、バックプロパゲーションの中心的な概念を中心に構築された一階法に支配されている。
二階微分を考慮した二階最適化法は、優れた理論的性質にもかかわらず、はるかに使われない。
この二階法の不適切さは、その計算コスト、性能の低さ、そしてディープラーニングの非凸性に起因する。
コスト効率のよい解に到達することなく、二階最適化の不適切さを解決するために、いくつかの試みが行われた。
本研究では,ニューラルネットワークの適切な正規化を前提として,この長期にわたる深層学習の問題を確率論的に解くことができることを示す。
興味深いことに、確率的ヘッシアンとその正確な固有値の表現を提供する。
非凸性問題を解き、正則化とスペクトル調整により平坦な最小値を求めるための正確な解を調整した。
一般的なデータセット上での確率的二階法を正確にテストし,その深層学習への適性を明らかにする。
関連論文リスト
- Discretize Relaxed Solution of Spectral Clustering via a Non-Heuristic
Algorithm [77.53604156112144]
我々は、元の問題と離散化アルゴリズムを橋渡しする1次項を開発する。
非ヒューリスティック法は元のグラフ切断問題を認識しているため、最終的な離散解の方が信頼性が高い。
論文 参考訳(メタデータ) (2023-10-19T13:57:38Z) - Efficient Methods for Non-stationary Online Learning [67.3300478545554]
本稿では, 動的後悔と適応的後悔を最適化する効率的な手法を提案し, ラウンド当たりの投影回数を$mathcalO(log T)$から$ $1$まで削減した。
本手法は,パラメータフリーオンライン学習において開発された還元機構を基礎として,非定常オンライン手法に非自明なツイストを必要とする。
論文 参考訳(メタデータ) (2023-09-16T07:30:12Z) - A deep learning method for solving stochastic optimal control problems
driven by fully-coupled FBSDEs [0.2064612766965483]
本稿では,完全結合前方微分方程式(FBSDEs,略してFBSDEs)によって駆動される高次元最適制御問題の,ディープラーニングによる数値解に着目した。
まず,この問題をStackelberg差分ゲーム(リーダ・フォロワー問題)に変換し,リーダーのコスト関数と追従者のコストがディープニューラルネットワークを介して最適化されるクロス最適化手法(COCO法)を開発する。
数値的な結果については,実用新案による投資消費問題の2つの例を計算し,両例が有効であることを示す。
論文 参考訳(メタデータ) (2022-04-12T13:31:19Z) - On the Benefits of Large Learning Rates for Kernel Methods [110.03020563291788]
本稿では,カーネル手法のコンテキストにおいて,現象を正確に特徴付けることができることを示す。
分離可能なヒルベルト空間における2次対象の最小化を考慮し、早期停止の場合、学習速度の選択が得られた解のスペクトル分解に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2022-02-28T13:01:04Z) - Adaptive First- and Second-Order Algorithms for Large-Scale Machine
Learning [3.0204520109309843]
機械学習における連続最適化問題に対処する一階法と二階法を考察する。
一階述語の場合、半決定論的から二次正規化への遷移の枠組みを提案する。
本稿では,適応的なサンプリングと適応的なステップサイズを持つ新しい1次アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-11-29T18:10:00Z) - Doubly Adaptive Scaled Algorithm for Machine Learning Using Second-Order
Information [37.70729542263343]
本稿では,大規模機械学習問題に対する適応最適化アルゴリズムを提案する。
我々の手法は方向とステップサイズを動的に適応させる。
我々の手法は退屈なチューニング率チューニングを必要としない。
論文 参考訳(メタデータ) (2021-09-11T06:39:50Z) - Near-Optimal High Probability Complexity Bounds for Non-Smooth
Stochastic Optimization with Heavy-Tailed Noise [63.304196997102494]
アルゴリズムが高い確率で小さな客観的残差を与えることを理論的に保証することが不可欠である。
既存の非滑らか凸最適化法は、負のパワーまたは対数的な信頼度に依存する境界の複雑さを持つ。
クリッピングを用いた2つの勾配法に対して, 新たなステップサイズルールを提案する。
論文 参考訳(メタデータ) (2021-06-10T17:54:21Z) - SHINE: SHaring the INverse Estimate from the forward pass for bi-level
optimization and implicit models [15.541264326378366]
近年,深層ニューラルネットワークの深度を高める手法として暗黙の深度学習が登場している。
トレーニングは双レベル問題として実行され、その計算複雑性は巨大なヤコビ行列の反復反転によって部分的に駆動される。
本稿では,この計算ボトルネックに対処する新たな手法を提案する。
論文 参考訳(メタデータ) (2021-06-01T15:07:34Z) - Regret minimization in stochastic non-convex learning via a
proximal-gradient approach [80.59047515124198]
機械学習やオペレーションの応用によって動機づけられた私たちは、オンラインで制約された問題を最小化するために、一階のオラクルフィードバックを後悔しています。
我々は、近位複雑性低減技術を保証する新しいプロキシグレードを開発する。
論文 参考訳(メタデータ) (2020-10-13T09:22:21Z) - Second-order Neural Network Training Using Complex-step Directional
Derivative [41.4333906662624]
本稿では,2次ニューラルネットワークトレーニングのための数値アルゴリズムを提案する。
複素ステップ有限差分を用いてヘッセン計算の実践的障害に取り組む。
提案手法は,ディープラーニングと数値最適化のための新しいアルゴリズムを広範囲に導入すると考えられる。
論文 参考訳(メタデータ) (2020-09-15T13:46:57Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。