論文の概要: Adaptive scaling of the learning rate by second order automatic
differentiation
- arxiv url: http://arxiv.org/abs/2210.14520v1
- Date: Wed, 26 Oct 2022 07:14:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 13:37:31.276170
- Title: Adaptive scaling of the learning rate by second order automatic
differentiation
- Title(参考訳): 2次自動微分による学習率の適応的スケーリング
- Authors: Fr\'ed\'eric de Gournay (IMT, INSA Toulouse), Alban Gossard (IMT, UT3)
- Abstract要約: 自動微分の新たな手法を用いて学習率を再スケールすることを提案する。
再スケーリングは適応的であり、データや降下方向に依存する。
数値実験は、様々な探査・収束体制を浮き彫りにした。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the context of the optimization of Deep Neural Networks, we propose to
rescale the learning rate using a new technique of automatic differentiation.
This technique relies on the computation of the {\em curvature}, a second order
information whose computational complexity is in between the computation of the
gradient and the one of the Hessian-vector product. If (1C,1M) represents
respectively the computational time and memory footprint of the gradient
method, the new technique increase the overall cost to either (1.5C,2M) or
(2C,1M). This rescaling has the appealing characteristic of having a natural
interpretation, it allows the practitioner to choose between exploration of the
parameters set and convergence of the algorithm. The rescaling is adaptive, it
depends on the data and on the direction of descent. The numerical experiments
highlight the different exploration/convergence regimes.
- Abstract(参考訳): 本稿では,Deep Neural Networksの最適化の文脈において,自動微分技術を用いて学習率を再スケールすることを提案する。
この手法は、勾配の計算とヘッセンベクトル積の計算の間に計算の複雑さがある2次情報である {\em curvature} の計算に依存する。
もし(1C,1M)が勾配法の計算時間とメモリフットプリントを表すならば、新しい手法は全体のコストを(1.5C,2M)または(2C,1M)に引き上げる。
この再スケーリングは、パラメータセットの探索とアルゴリズムの収束のどちらを選択できるように、自然な解釈を持つという魅力的な特徴を持っている。
再スケーリングは適応的であり、データと降下方向に依存する。
数値実験は、異なる探索/収束体制を浮き彫りにする。
関連論文リスト
- Stochastic Optimization for Non-convex Problem with Inexact Hessian
Matrix, Gradient, and Function [99.31457740916815]
信頼領域(TR)と立方体を用いた適応正則化は、非常に魅力的な理論的性質を持つことが証明されている。
TR法とARC法はヘッセン関数,勾配関数,関数値の非コンパクトな計算を同時に行うことができることを示す。
論文 参考訳(メタデータ) (2023-10-18T10:29:58Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - Layer-wise Adaptive Step-Sizes for Stochastic First-Order Methods for
Deep Learning [8.173034693197351]
深層学習における一階最適化のための新しい階層ごとの適応的なステップサイズ手順を提案する。
提案手法は,ディープニューラルネットワーク(DNN)におけるヘシアン対角ブロックに含まれる層次曲率情報を用いて,各層に対する適応的なステップサイズ(LR)を算出する。
数値実験により、SGDの運動量とAdamWと、提案した層ごとのステップサイズを組み合わせることで、効率的なLRスケジュールを選択できることが示されている。
論文 参考訳(メタデータ) (2023-05-23T04:12:55Z) - Error-Correcting Neural Networks for Two-Dimensional Curvature
Computation in the Level-Set Method [0.0]
本稿では,2次元曲率をレベルセット法で近似するための誤差ニューラルモデルに基づく手法を提案する。
我々の主な貢献は、需要に応じて機械学習操作を可能にする数値スキームに依存する、再設計されたハイブリッド・ソルバである。
論文 参考訳(メタデータ) (2022-01-22T05:14:40Z) - Doubly Adaptive Scaled Algorithm for Machine Learning Using Second-Order
Information [37.70729542263343]
本稿では,大規模機械学習問題に対する適応最適化アルゴリズムを提案する。
我々の手法は方向とステップサイズを動的に適応させる。
我々の手法は退屈なチューニング率チューニングを必要としない。
論文 参考訳(メタデータ) (2021-09-11T06:39:50Z) - Learning Linearized Assignment Flows for Image Labeling [70.540936204654]
画像ラベリングのための線形化代入フローの最適パラメータを推定するための新しいアルゴリズムを提案する。
この式をKrylov部分空間と低ランク近似を用いて効率的に評価する方法を示す。
論文 参考訳(メタデータ) (2021-08-02T13:38:09Z) - Randomized Automatic Differentiation [22.95414996614006]
我々は、ランダム化自動微分(RAD)のための一般的なフレームワークとアプローチを開発する。
RADは、分散の見返りにメモリを減らし、バイアスのない見積もりを計算できる。
本稿では,フィードフォワードネットワークのバッチサイズを小さくし,繰り返しネットワークの場合と同様の回数でRADが収束することを示す。
論文 参考訳(メタデータ) (2020-07-20T19:03:44Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。