論文の概要: A Simple Asymmetric Momentum Make SGD Greatest Again
- arxiv url: http://arxiv.org/abs/2309.02130v1
- Date: Tue, 5 Sep 2023 11:16:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 15:13:19.236195
- Title: A Simple Asymmetric Momentum Make SGD Greatest Again
- Title(参考訳): 単純な非対称モーメントは、SGDを再び最高にする
- Authors: Gongyue Zhang, Dinghuang Zhang, Shuwen Zhao, Donghan Liu, Carrie M.
Toptan and Honghai Liu
- Abstract要約: Loss-Controlled Asymmetric Momentum (LCAM) は Saddle Point 問題を直接対象とする。
従来のSGDとMomentumを比較すると、計算需要は増えませんが、すべての電流よりも優れています。
Cifar100 上で WRN28-10 を用いて、120 年代前後の平均テスト精度は 80.78% に達した。
- 参考スコア(独自算出の注目度): 4.1001738811512345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose the simplest SGD enhanced method ever, Loss-Controlled Asymmetric
Momentum(LCAM), aimed directly at the Saddle Point problem. Compared to the
traditional SGD with Momentum, there's no increase in computational demand, yet
it outperforms all current optimizers. We use the concepts of weight
conjugation and traction effect to explain this phenomenon. We designed
experiments to rapidly reduce the learning rate at specified epochs to trap
parameters more easily at saddle points. We selected WRN28-10 as the test
network and chose cifar10 and cifar100 as test datasets, an identical group to
the original paper of WRN and Cosine Annealing Scheduling(CAS). We compared the
ability to bypass saddle points of Asymmetric Momentum with different
priorities. Finally, using WRN28-10 on Cifar100, we achieved a peak average
test accuracy of 80.78\% around 120 epoch. For comparison, the original WRN
paper reported 80.75\%, while CAS was at 80.42\%, all at 200 epoch. This means
that while potentially increasing accuracy, we use nearly half convergence
time. Our demonstration code is available at\\
https://github.com/hakumaicc/Asymmetric-Momentum-LCAM
- Abstract(参考訳): そこで我々は,Saddle Point問題を直接対象とする,最も単純なSGD拡張手法であるLos-Controlled Asymmetric Momentum (LCAM)を提案する。
従来のsgdに比べて計算需要は増加しませんが、現在のオプティマイザを上回っています。
この現象を説明するために,重み共役とトラクション効果の概念を用いる。
我々は,特定のエポックでの学習率を迅速に低減し,サドルポイントでパラメータをより容易にトラップする実験を設計した。
We select WRN28-10 as the test network and select cifar10 and cifar100 as test datasets, a same group to the original paper of WRN and Cosine Annealing Scheduling (CAS)。
異なる優先順位で非対称運動量の鞍点をバイパスする能力を比較した。
最後に,Cifar100 上で WRN28-10 を用いて,120 年代前後の平均試験精度80.78 % に達した。
比較として、元のWRNの論文では80.75\%、CASは80.42\%、全て200エポックであった。
これは、精度を高めつつも、ほぼ半分の収束時間を使うことを意味する。
デモコードは、\ https://github.com/hakumaicc/Asymmetric-Momentum-LCAMで公開されている。
関連論文リスト
- Gradient-free variational learning with conditional mixture networks [39.827869318925494]
条件付き混合ネットワーク(CMN)は、高速で勾配のない推論に適しており、複雑な分類タスクを解くことができる。
UCIレポジトリから標準ベンチマークで2層CMNをトレーニングすることで、このアプローチを検証する。
提案手法であるCAVI-CMNは,バックプロパゲーションを伴う最大推定値(MLE)と比較して,競合的かつしばしば優れた予測精度を実現する。
論文 参考訳(メタデータ) (2024-08-29T10:43:55Z) - Parallel and Limited Data Voice Conversion Using Stochastic Variational
Deep Kernel Learning [2.5782420501870296]
本稿では,限られたデータを扱う音声変換手法を提案する。
変分深層学習(SVDKL)に基づく。
非滑らかでより複雑な関数を推定することができる。
論文 参考訳(メタデータ) (2023-09-08T16:32:47Z) - Flatter, faster: scaling momentum for optimal speedup of SGD [0.0]
ニューラルネットワークのトレーニングにおいて、勾配降下(SGD)とラベルノイズと運動量との相互作用から生じるトレーニングダイナミクスについて検討した。
運動量ハイパーパラメータ1-NISTbeta$を学習率で2/3$にスケーリングすると、一般化を犠牲にすることなく、最大で2/3$のトレーニングが加速することがわかった。
論文 参考訳(メタデータ) (2022-10-28T20:41:48Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Exploiting Adam-like Optimization Algorithms to Improve the Performance
of Convolutional Neural Networks [82.61182037130405]
勾配降下(SGD)は深いネットワークを訓練するための主要なアプローチです。
本研究では,現在と過去の勾配の違いに基づいて,Adamに基づく変分を比較する。
resnet50を勾配降下訓練したネットワークのアンサンブルと融合実験を行った。
論文 参考訳(メタデータ) (2021-03-26T18:55:08Z) - Preprint: Norm Loss: An efficient yet effective regularization method
for deep neural networks [7.214681039134488]
斜め多様体に基づく重み付き軟規則化法を提案する。
本手法は, CIFAR-10, CIFAR-100, ImageNet 2012データセットを用いて評価した。
論文 参考訳(メタデータ) (2021-03-11T10:24:49Z) - Critical Parameters for Scalable Distributed Learning with Large Batches
and Asynchronous Updates [67.19481956584465]
飽和を伴う分散トレーニング(SGD)の効率は、バッチサイズと、実装における停滞に決定的に依存することが実験的に観察されている。
結果がタイトであることを示し、数値実験で重要な結果を示しています。
論文 参考訳(メタデータ) (2021-03-03T12:08:23Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。