論文の概要: On Exploiting Layerwise Gradient Statistics for Effective Training of
Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2203.13273v1
- Date: Thu, 24 Mar 2022 18:00:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-28 13:54:03.259085
- Title: On Exploiting Layerwise Gradient Statistics for Effective Training of
Deep Neural Networks
- Title(参考訳): 深層ニューラルネットワークの効果的な学習における階層勾配統計の活用について
- Authors: Guoqiang Zhang and Kenta Niwa and W. Bastiaan Kleijn
- Abstract要約: 我々はAdamとAdaBeliefを前処理または後処理によって更新手順に階層的に適応的なステップ化を導入することで修正する。
そこで本稿では,各層内の要素的段階化が,統計的分散が著しく小さいことを目的として,新しい最適化手法であるAidaを提案する。
実験の結果,Adam や AdaBelief などの既存手法と比較して,Aida は競争力や性能が向上していることがわかった。
- 参考スコア(独自算出の注目度): 32.12990919376131
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adam and AdaBelief compute and make use of elementwise adaptive stepsizes in
training deep neural networks (DNNs) by tracking the exponential moving average
(EMA) of the squared-gradient g_t^2 and the squared prediction error
(m_t-g_t)^2, respectively, where m_t is the first momentum at iteration t and
can be viewed as a prediction of g_t. In this work, we attempt to find out if
layerwise gradient statistics can be expoited in Adam and AdaBelief to allow
for more effective training of DNNs. We address the above research question in
two steps. Firstly, we slightly modify Adam and AdaBelief by introducing
layerwise adaptive stepsizes in their update procedures via either pre or post
processing. Empirical study indicates that the slight modification produces
comparable performance for training VGG and ResNet models over CIFAR10,
suggesting that layer-wise gradient statistics plays an important role towards
the success of Adam and AdaBelief for at least certian DNN tasks. In the second
step, instead of manual setup of layerwise stepsizes, we propose Aida, a new
optimisation method, with the objective that the elementwise stepsizes within
each layer have significantly small statistic variances. Motivated by the fact
that (m_t-g_t)^2 in AdaBelief is conservative in comparison to g_t^2 in Adam in
terms of layerwise statistic averages and variances, Aida is designed by
tracking a more conservative function of m_t and g_t than (m_t-g_t)^2 in
AdaBelief via layerwise orthogonal vector projections. Experimental results
show that Aida produces either competitive or better performance with respect
to a number of existing methods including Adam and AdaBelief for a set of
challenging DNN tasks.
- Abstract(参考訳): adam と adabelief はそれぞれ m_t が反復 t における最初の運動量であり、g_t の予測と見なすことができる二乗勾配 g_t^2 の指数移動平均 (ema) と二乗予測誤差 (m_t-g_t)^2 を追跡することにより、深層ニューラルネットワーク (dnns) の訓練において要素適応ステップを計算し、活用する。
本研究では,DNN のより効果的なトレーニングを可能にするため,Adam と AdaBelief で階層的に勾配統計を抽出できるかどうかを確かめる。
上記の研究課題を2つのステップで解決する。
まず、adam と adabelief を少し変更し、プレまたはポスト処理による更新手順に layerwise adaptive stepize を導入する。
経験的な研究では、わずかな修正がcifar10上でのvggとresnetモデルのトレーニングに匹敵するパフォーマンスをもたらすことが示されており、少なくともcertian dnnタスクにおいてadamとadabeliefの成功に重要な役割を果たすことを示唆している。
第2のステップでは,層毎ステップの手動設定ではなく,各レイヤ内の要素毎ステップ化を目的とし,新しい最適化手法であるaidaを提案する。
adabelief の (m_t-g_t)^2 が adam の g_t^2 と比較して層次統計平均と分散の点で保守的であるという事実に動機づけられ、aida は adabelief の (m_t-g_t)^2 よりも m_t と g_t のより保守的な関数を層次直交ベクトル射影で追跡して設計されている。
実験の結果,aida は dnn 課題の組に対して,adam や adabelief など既存の手法と競合するか,あるいは性能が向上することが示された。
関連論文リスト
- Double-Dip: Thwarting Label-Only Membership Inference Attacks with
Transfer Learning and Randomization [2.6121142662033923]
会員推論攻撃(MIAs)と呼ばれるプライバシー攻撃のクラスは、与えられたサンプルがトレーニングデータセット(メンバー)に属しているかどうか(非メンバー)を決定することを目的としている。
論文 参考訳(メタデータ) (2024-02-02T03:14:37Z) - AdamL: A fast adaptive gradient method incorporating loss function [1.6025685183216696]
本稿では,Adamの新たな変種であるAdamLを提案する。
我々は,Adam,EAdam,AdaBeliefと比較して,AdamLが最速収束あるいは最小目標関数値を達成することを示す。
バニラ畳み込みニューラルネットワークの場合、AdamLは他のAdamの変種とは違い、トレーニングの後半段階では学習率を手動で調整する必要がなくなる。
論文 参考訳(メタデータ) (2023-12-23T16:32:29Z) - Exploiting Adam-like Optimization Algorithms to Improve the Performance
of Convolutional Neural Networks [82.61182037130405]
勾配降下(SGD)は深いネットワークを訓練するための主要なアプローチです。
本研究では,現在と過去の勾配の違いに基づいて,Adamに基づく変分を比較する。
resnet50を勾配降下訓練したネットワークのアンサンブルと融合実験を行った。
論文 参考訳(メタデータ) (2021-03-26T18:55:08Z) - Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。
我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。
画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-11-24T09:28:53Z) - AdaBelief Optimizer: Adapting Stepsizes by the Belief in Observed
Gradients [16.625086653851543]
本稿では,適応法のような高速収束,SGDのような優れた一般化,訓練安定性の3つの目標を同時に達成するために,AdaBeliefを提案する。
我々は、AdaBeliefを広範囲な実験で検証し、画像分類と言語モデリングにおいて、高速収束と高精度で他の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-10-15T01:46:13Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z) - AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文 参考訳(メタデータ) (2020-06-15T08:35:15Z) - Training with Multi-Layer Embeddings for Model Reduction [0.9046327456472286]
複数層埋め込み学習アーキテクチャを導入し, 一連の線形層を通して埋め込みを訓練する。
その結果,メモリフットプリントの精度が向上し,dを4~8倍削減できることがわかった。
論文 参考訳(メタデータ) (2020-06-10T02:47:40Z) - Learning Low-rank Deep Neural Networks via Singular Vector Orthogonality
Regularization and Singular Value Sparsification [53.50708351813565]
各ステップにSVDを適用することなく、トレーニング中に低ランクDNNを明示的に達成する最初の方法であるSVDトレーニングを提案する。
SVDトレーニングがDNN層のランクを著しく低減し,同じ精度で計算負荷の低減を実現することを実証的に示す。
論文 参考訳(メタデータ) (2020-04-20T02:40:43Z) - Generalized ODIN: Detecting Out-of-distribution Image without Learning
from Out-of-distribution Data [87.61504710345528]
我々は,OoD検出性能を改善しつつ,ニューラルネットワークをOoDデータのチューニングから解放する2つの方法を提案する。
具体的には、信頼性スコアリングと修正された入力前処理法を分離することを提案する。
大規模画像データセットのさらなる解析により、セマンティックシフトと非セマンティックシフトの2種類の分布シフトが有意な差を示すことが示された。
論文 参考訳(メタデータ) (2020-02-26T04:18:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。