論文の概要: AdaL: Adaptive Gradient Transformation Contributes to Convergences and
Generalizations
- arxiv url: http://arxiv.org/abs/2107.01525v1
- Date: Sun, 4 Jul 2021 02:55:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-06 15:19:00.617425
- Title: AdaL: Adaptive Gradient Transformation Contributes to Convergences and
Generalizations
- Title(参考訳): adal: 適応勾配変換は収束と一般化に寄与する
- Authors: Hongwei Zhang and Weidong Zou and Hongbo Zhao and Qi Ming and Tijin
Yan and Yuanqing Xia and Weipeng Cao
- Abstract要約: 元の勾配を変換したAdaLを提案する。
AdaLは初期の勾配を増幅することで収束を加速し、振動を減衰させ、後に勾配を縮めることで最適化を安定化する。
- 参考スコア(独自算出の注目度): 4.991328448898387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adaptive optimization methods have been widely used in deep learning. They
scale the learning rates adaptively according to the past gradient, which has
been shown to be effective to accelerate the convergence. However, they suffer
from poor generalization performance compared with SGD. Recent studies point
that smoothing exponential gradient noise leads to generalization degeneration
phenomenon. Inspired by this, we propose AdaL, with a transformation on the
original gradient. AdaL accelerates the convergence by amplifying the gradient
in the early stage, as well as dampens the oscillation and stabilizes the
optimization by shrinking the gradient later. Such modification alleviates the
smoothness of gradient noise, which produces better generalization performance.
We have theoretically proved the convergence of AdaL and demonstrated its
effectiveness on several benchmarks.
- Abstract(参考訳): 適応最適化法はディープラーニングに広く用いられている。
彼らは過去の勾配に従って学習率を適応的にスケールし、収束の加速に有効であることが示されている。
しかし、SGDと比較して一般化性能が劣る。
近年の研究では、指数勾配雑音の平滑化が一般化縮退現象をもたらすことが指摘されている。
これに触発されて、元の勾配に変換を加えたAdaLを提案する。
AdaLは初期の勾配を増幅することで収束を加速し、振動を減衰させ、後に勾配を縮めることで最適化を安定化する。
このような修正により勾配雑音の滑らかさが軽減され、一般化性能が向上する。
我々はAdaLの収束を理論的に証明し、いくつかのベンチマークでその効果を実証した。
関連論文リスト
- Signal Processing Meets SGD: From Momentum to Filter [10.579184194532044]
Descent Gradient (SGD) とその運動量に基づく変種は最適化アルゴリズムの主要な選択肢である。
本研究では, 歴史的勾配の分散を低減し, 平坦な解に収束させる新しい最適化手法を提案する。
提案した適応重量SGDF(Stochastic Gradient Descent With Filter)は良好な性能を示した。
論文 参考訳(メタデータ) (2023-11-06T01:41:46Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - Proximal Subgradient Norm Minimization of ISTA and FISTA [8.261388753972234]
反復収縮保持アルゴリズムのクラスに対する2乗近位次数ノルムは逆2乗率で収束することを示す。
また、高速反復収縮保持アルゴリズム (FISTA) のクラスに対する2乗次次数次ノルムが、逆立方レートで収束するように加速されることも示している。
論文 参考訳(メタデータ) (2022-11-03T06:50:19Z) - The Power of Adaptivity in SGD: Self-Tuning Step Sizes with Unbounded
Gradients and Affine Variance [46.15915820243487]
AdaGrad-Normは$mathcalOleftのオーダー最適収束を示す。
AdaGrad-Normは$mathcalOleftのオーダー最適収束を示す。
論文 参考訳(メタデータ) (2022-02-11T17:37:54Z) - Adapting Stepsizes by Momentumized Gradients Improves Optimization and
Generalization [89.66571637204012]
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
論文 参考訳(メタデータ) (2021-06-22T03:13:23Z) - Decreasing scaling transition from adaptive gradient descent to
stochastic gradient descent [1.7874193862154875]
本稿では,適応勾配降下法から勾配勾配降下法DSTAdaへのスケーリング遷移を減少させる手法を提案する。
実験の結果,DSTAdaは高速で精度が高く,安定性と堅牢性も向上した。
論文 参考訳(メタデータ) (2021-06-12T11:28:58Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Channel-Directed Gradients for Optimization of Convolutional Neural
Networks [50.34913837546743]
本稿では,畳み込みニューラルネットワークの最適化手法を提案する。
出力チャネル方向に沿って勾配を定義することで性能が向上し,他の方向が有害となることを示す。
論文 参考訳(メタデータ) (2020-08-25T00:44:09Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z) - Adaptive Gradient Methods Can Be Provably Faster than SGD after Finite
Epochs [25.158203665218164]
適応勾配法は有限時間後にランダムシャッフルSGDよりも高速であることを示す。
我々の知る限り、適応的勾配法は有限時間後にSGDよりも高速であることを示すのはこれが初めてである。
論文 参考訳(メタデータ) (2020-06-12T09:39:47Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。