論文の概要: ADLER -- An efficient Hessian-based strategy for adaptive learning rate
- arxiv url: http://arxiv.org/abs/2305.16396v1
- Date: Thu, 25 May 2023 18:01:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 18:33:58.501172
- Title: ADLER -- An efficient Hessian-based strategy for adaptive learning rate
- Title(参考訳): ADLER -- 適応学習率のための効率的なヘッセン的戦略
- Authors: Dario Balboni, Davide Bacciu
- Abstract要約: 局所二次近似の最小化に基づく適応的なSGD学習率戦略を提供する。
また,新しい近似法とガウス・ニュートン近似法との比較を行った。
- 参考スコア(独自算出の注目度): 11.460692362624533
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We derive a sound positive semi-definite approximation of the Hessian of deep
models for which Hessian-vector products are easily computable. This enables us
to provide an adaptive SGD learning rate strategy based on the minimization of
the local quadratic approximation, which requires just twice the computation of
a single SGD run, but performs comparably with grid search on SGD learning
rates on different model architectures (CNN with and without residual
connections) on classification tasks. We also compare the novel approximation
with the Gauss-Newton approximation.
- Abstract(参考訳): ヘシアンベクトル積が容易に計算可能な深層モデルのヘッシアンに対する正の半定値近似を導出する。
これにより、局所二次近似の最小化に基づく適応的sgd学習率戦略が実現可能であり、単一のsgd実行の計算のわずか2倍の計算を必要とするが、分類タスクにおいて異なるモデルアーキテクチャ(cnn with and without remaining connections)上のsgd学習率のグリッド検索と相性が良い。
また,新しい近似法をガウスニュートン近似法と比較した。
関連論文リスト
- Layer-wise Adaptive Step-Sizes for Stochastic First-Order Methods for
Deep Learning [8.173034693197351]
深層学習における一階最適化のための新しい階層ごとの適応的なステップサイズ手順を提案する。
提案手法は,ディープニューラルネットワーク(DNN)におけるヘシアン対角ブロックに含まれる層次曲率情報を用いて,各層に対する適応的なステップサイズ(LR)を算出する。
数値実験により、SGDの運動量とAdamWと、提案した層ごとのステップサイズを組み合わせることで、効率的なLRスケジュールを選択できることが示されている。
論文 参考訳(メタデータ) (2023-05-23T04:12:55Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - Faster Adaptive Federated Learning [84.38913517122619]
フェデレートラーニングは分散データの出現に伴って注目を集めている。
本稿では,クロスサイロFLにおけるモーメントに基づく分散低減手法に基づく適応アルゴリズム(FAFED)を提案する。
論文 参考訳(メタデータ) (2022-12-02T05:07:50Z) - Exploiting Temporal Structures of Cyclostationary Signals for
Data-Driven Single-Channel Source Separation [98.95383921866096]
単一チャネルソース分離(SCSS)の問題点について検討する。
我々は、様々なアプリケーション領域に特に適するサイクロ定常信号に焦点を当てる。
本稿では,最小MSE推定器と競合するU-Netアーキテクチャを用いたディープラーニング手法を提案する。
論文 参考訳(メタデータ) (2022-08-22T14:04:56Z) - Making Look-Ahead Active Learning Strategies Feasible with Neural
Tangent Kernels [6.372625755672473]
本稿では,仮説的ラベル付き候補データを用いた再学習に基づく,能動的学習獲得戦略の近似手法を提案する。
通常、これはディープ・ネットワークでは実現できないが、我々はニューラル・タンジェント・カーネルを用いて再トレーニングの結果を近似する。
論文 参考訳(メタデータ) (2022-06-25T06:13:27Z) - Local AdaGrad-Type Algorithm for Stochastic Convex-Concave Minimax
Problems [80.46370778277186]
大規模凸凹型ミニマックス問題は、ゲーム理論、堅牢なトレーニング、生成的敵ネットワークのトレーニングなど、多くの応用で発生する。
通信効率のよい分散外グレードアルゴリズムであるLocalAdaSientを開発した。
サーバモデル。
等質な環境と異質な環境の両方において,その有効性を実証する。
論文 参考訳(メタデータ) (2021-06-18T09:42:05Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - On the Promise of the Stochastic Generalized Gauss-Newton Method for
Training DNNs [37.96456928567548]
一般化されたガウスニュートン法(SGN)を用いてDNNの訓練を行う。
SGNは2次最適化法であり、効率の良い反復法であり、標準のSGDよりもはるかに少ない繰り返しを必要とすることがよく示される。
我々は,SGNが反復回数の点でSGDよりも大幅に改善されているだけでなく,実行時の点でも改善されていることを示す。
これは、私たちがTheanoディープラーニングプラットフォームで提案するSGNの効率的で使いやすく柔軟な実装によって実現されている。
論文 参考訳(メタデータ) (2020-06-03T17:35:54Z) - Learning Gaussian Graphical Models via Multiplicative Weights [54.252053139374205]
乗算重み更新法に基づいて,Klivans と Meka のアルゴリズムを適用した。
アルゴリズムは、文献の他のものと質的に類似したサンプル複雑性境界を楽しみます。
ランタイムが低い$O(mp2)$で、$m$サンプルと$p$ノードの場合には、簡単にオンライン形式で実装できる。
論文 参考訳(メタデータ) (2020-02-20T10:50:58Z) - A Dynamic Sampling Adaptive-SGD Method for Machine Learning [8.173034693197351]
本稿では,勾配近似の計算に使用されるバッチサイズと,その方向に移動するステップサイズを適応的に制御する手法を提案する。
提案手法は局所曲率情報を利用して探索方向を高い確率で降下方向とする。
数値実験により、この手法は最適な学習率を選択することができ、ロジスティック回帰とDNNを訓練するための微調整されたSGDと好適に比較できることが示された。
論文 参考訳(メタデータ) (2019-12-31T15:36:44Z) - Robust Learning Rate Selection for Stochastic Optimization via Splitting
Diagnostic [5.395127324484869]
SplitSGDは最適化のための新しい動的学習スケジュールである。
本手法は,対象関数の局所的幾何への適応性を向上するために学習率を低下させる。
基本的には標準のSGDよりも計算コストがかかるわけではない。
論文 参考訳(メタデータ) (2019-10-18T19:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。