論文の概要: Asymmetric Momentum: A Rethinking of Gradient Descent
- arxiv url: http://arxiv.org/abs/2309.02130v2
- Date: Tue, 3 Oct 2023 04:47:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 07:35:28.557673
- Title: Asymmetric Momentum: A Rethinking of Gradient Descent
- Title(参考訳): 非対称運動量:勾配降下の再考
- Authors: Gongyue Zhang, Dinghuang Zhang, Shuwen Zhao, Donghan Liu, Carrie M.
Toptan and Honghai Liu
- Abstract要約: LCAM(Los-Controlled Asymmetric Momentum)の最も単純なSGD拡張手法を提案する。
損失を平均化することにより、トレーニングプロセスを異なる損失フェーズに分割し、異なる運動量を使用する。
重みが方向特異性を持つことを実験的に検証し、データセットの特異性と相関する。
- 参考スコア(独自算出の注目度): 4.1001738811512345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Through theoretical and experimental validation, unlike all existing adaptive
methods like Adam which penalize frequently-changing parameters and are only
applicable to sparse gradients, we propose the simplest SGD enhanced method,
Loss-Controlled Asymmetric Momentum(LCAM). By averaging the loss, we divide
training process into different loss phases and using different momentum. It
not only can accelerates slow-changing parameters for sparse gradients, similar
to adaptive optimizers, but also can choose to accelerates frequently-changing
parameters for non-sparse gradients, thus being adaptable to all types of
datasets. We reinterpret the machine learning training process through the
concepts of weight coupling and weight traction, and experimentally validate
that weights have directional specificity, which are correlated with the
specificity of the dataset. Thus interestingly, we observe that in non-sparse
gradients, frequently-changing parameters should actually be accelerated, which
is completely opposite to traditional adaptive perspectives. Compared to
traditional SGD with momentum, this algorithm separates the weights without
additional computational costs. It is noteworthy that this method relies on the
network's ability to extract complex features. We primarily use Wide Residual
Networks for our research, employing the classic datasets Cifar10 and Cifar100
to test the ability for feature separation and conclude phenomena that are much
more important than just accuracy rates. Finally, compared to classic SGD
tuning methods, while using WRN on these two datasets and with nearly half the
training epochs, we achieve equal or better test accuracy.
- Abstract(参考訳): 理論的および実験的検証を通じて、頻繁に変化するパラメータをペナライズし、スパース勾配にのみ適用できるAdamのような既存の適応手法とは異なり、最も単純なSGD拡張手法であるロス制御非対称モメンタム(LCAM)を提案する。
損失を平均することで、トレーニングプロセスを異なる損失フェーズに分割し、異なるモーメントを使用する。
適応オプティマイザと同様、スパース勾配の遅い変化パラメータを加速できるだけでなく、スパース勾配の頻繁な変化パラメータを加速できるため、あらゆる種類のデータセットに適応できる。
重み結合と重みトラクションの概念を用いて機械学習学習プロセスを再解釈し、重みがデータセットの特異性と相関する方向特異性を持つことを実験的に検証する。
興味深いことに,非疎勾配では,頻繁に変化するパラメータが実際に加速されるべきであり,これは従来の適応的観点とは全く逆である。
従来の運動量を持つsgdと比較して、このアルゴリズムは計算コストを増すことなく重みを分離する。
この手法は複雑な特徴を抽出するネットワークの能力に依存している。
従来のデータセットであるcifar10とcifar100を使用して、特徴分離の能力をテストすると同時に、単に正確性よりもはるかに重要な現象を結論付けています。
最後に、従来のSGDチューニング手法と比較して、これらの2つのデータセットでWRNを使用し、ほぼ半分のトレーニングエポックで、同等またはより良いテスト精度を達成する。
関連論文リスト
- Gradient-free variational learning with conditional mixture networks [39.827869318925494]
条件付き混合ネットワーク(CMN)は、高速で勾配のない推論に適しており、複雑な分類タスクを解くことができる。
UCIレポジトリから標準ベンチマークで2層CMNをトレーニングすることで、このアプローチを検証する。
提案手法であるCAVI-CMNは,バックプロパゲーションを伴う最大推定値(MLE)と比較して,競合的かつしばしば優れた予測精度を実現する。
論文 参考訳(メタデータ) (2024-08-29T10:43:55Z) - Parallel and Limited Data Voice Conversion Using Stochastic Variational
Deep Kernel Learning [2.5782420501870296]
本稿では,限られたデータを扱う音声変換手法を提案する。
変分深層学習(SVDKL)に基づく。
非滑らかでより複雑な関数を推定することができる。
論文 参考訳(メタデータ) (2023-09-08T16:32:47Z) - Flatter, faster: scaling momentum for optimal speedup of SGD [0.0]
ニューラルネットワークのトレーニングにおいて、勾配降下(SGD)とラベルノイズと運動量との相互作用から生じるトレーニングダイナミクスについて検討した。
運動量ハイパーパラメータ1-NISTbeta$を学習率で2/3$にスケーリングすると、一般化を犠牲にすることなく、最大で2/3$のトレーニングが加速することがわかった。
論文 参考訳(メタデータ) (2022-10-28T20:41:48Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Exploiting Adam-like Optimization Algorithms to Improve the Performance
of Convolutional Neural Networks [82.61182037130405]
勾配降下(SGD)は深いネットワークを訓練するための主要なアプローチです。
本研究では,現在と過去の勾配の違いに基づいて,Adamに基づく変分を比較する。
resnet50を勾配降下訓練したネットワークのアンサンブルと融合実験を行った。
論文 参考訳(メタデータ) (2021-03-26T18:55:08Z) - Preprint: Norm Loss: An efficient yet effective regularization method
for deep neural networks [7.214681039134488]
斜め多様体に基づく重み付き軟規則化法を提案する。
本手法は, CIFAR-10, CIFAR-100, ImageNet 2012データセットを用いて評価した。
論文 参考訳(メタデータ) (2021-03-11T10:24:49Z) - Critical Parameters for Scalable Distributed Learning with Large Batches
and Asynchronous Updates [67.19481956584465]
飽和を伴う分散トレーニング(SGD)の効率は、バッチサイズと、実装における停滞に決定的に依存することが実験的に観察されている。
結果がタイトであることを示し、数値実験で重要な結果を示しています。
論文 参考訳(メタデータ) (2021-03-03T12:08:23Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。