論文の概要: AlterSGD: Finding Flat Minima for Continual Learning by Alternative
Training
- arxiv url: http://arxiv.org/abs/2107.05804v1
- Date: Tue, 13 Jul 2021 01:43:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-14 14:59:16.518138
- Title: AlterSGD: Finding Flat Minima for Continual Learning by Alternative
Training
- Title(参考訳): AlterSGD:代替学習による継続学習のためのフラットミニマを見つける
- Authors: Zhongzhan Huang, Mingfu Liang, Senwei Liang, Wei He
- Abstract要約: 本稿では,損失景観における平らな最小値を求めるために,AlterSGDと呼ばれるシンプルで効果的な最適化手法を提案する。
このような戦略は、最適化が平坦なミニマに収束することを促進できることを示す。
セマンティックセグメンテーションのための連続学習ベンチマーク上でAlterSGDを検証し、実験結果から、忘れを著しく軽減できることを示す。
- 参考スコア(独自算出の注目度): 11.521519687645428
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks suffer from catastrophic forgetting when learning
multiple knowledge sequentially, and a growing number of approaches have been
proposed to mitigate this problem. Some of these methods achieved considerable
performance by associating the flat local minima with forgetting mitigation in
continual learning. However, they inevitably need (1) tedious hyperparameters
tuning, and (2) additional computational cost. To alleviate these problems, in
this paper, we propose a simple yet effective optimization method, called
AlterSGD, to search for a flat minima in the loss landscape. In AlterSGD, we
conduct gradient descent and ascent alternatively when the network tends to
converge at each session of learning new knowledge. Moreover, we theoretically
prove that such a strategy can encourage the optimization to converge to a flat
minima. We verify AlterSGD on continual learning benchmark for semantic
segmentation and the empirical results show that we can significantly mitigate
the forgetting and outperform the state-of-the-art methods with a large margin
under challenging continual learning protocols.
- Abstract(参考訳): ディープニューラルネットワークは、複数の知識を逐次学習するときに壊滅的な忘れがちであり、この問題を軽減するために多くのアプローチが提案されている。
これらの手法のいくつかは、平らな局所最小値と連続学習における緩和を忘れることとを関連付けることで、かなりの性能を発揮した。
しかし、それらは必然的に(1)退屈なハイパーパラメータチューニング、(2)追加の計算コストを必要とする。
そこで本研究では,損失景観における平坦な最小値を求めるために,AlterSGDと呼ばれる単純な最適化手法を提案する。
AlterSGDでは、新たな知識を学習する各セッションでネットワークが収束する傾向にある場合、勾配降下と上昇を行う。
さらに、そのような戦略が最適化をフラットなミニマに収束させることを理論的に証明する。
意味セグメンテーションのための連続学習ベンチマークのaltersgdを検証し, 実験結果から, 連続学習プロトコルの難易度において, 最先端の手法の忘れ方や超越性を著しく軽減できることを示した。
関連論文リスト
- Non-convergence to global minimizers in data driven supervised deep learning: Adam and stochastic gradient descent optimization provably fail to converge to global minimizers in the training of deep neural networks with ReLU activation [3.6185342807265415]
厳密な理論用語でSGD法の成功と限界を説明することは、研究のオープンな問題である。
本研究では,最適化問題の大域的最小化に収束しない確率の高いSGD手法の大規模なクラスについて検証する。
この研究の一般的な非収束結果は、通常のバニラ標準SGD法だけでなく、多くの加速および適応SGD法にも適用される。
論文 参考訳(メタデータ) (2024-10-14T14:11:37Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - An Accelerated Doubly Stochastic Gradient Method with Faster Explicit
Model Identification [97.28167655721766]
本稿では、分散正規化損失最小化問題に対する2倍加速勾配降下法(ADSGD)を提案する。
まず、ADSGDが線形収束率を達成でき、全体的な計算複雑性を低減できることを示す。
論文 参考訳(メタデータ) (2022-08-11T22:27:22Z) - Questions for Flat-Minima Optimization of Modern Neural Networks [28.12506392321345]
平らなミニマを見つけるには, 平均化法(ウェイト平均化, SWA)と最小化法(アウェア, シャープネス最小化, SAM)の2つの方法が重要である。
本稿では,コンピュータビジョン,自然言語処理,グラフ学習タスクにまたがるこれらのアプローチの系統的なベンチマークから,損失曲面を考察する。
論文 参考訳(メタデータ) (2022-02-01T18:56:15Z) - Local AdaGrad-Type Algorithm for Stochastic Convex-Concave Minimax
Problems [80.46370778277186]
大規模凸凹型ミニマックス問題は、ゲーム理論、堅牢なトレーニング、生成的敵ネットワークのトレーニングなど、多くの応用で発生する。
通信効率のよい分散外グレードアルゴリズムであるLocalAdaSientを開発した。
サーバモデル。
等質な環境と異質な環境の両方において,その有効性を実証する。
論文 参考訳(メタデータ) (2021-06-18T09:42:05Z) - Tunable Subnetwork Splitting for Model-parallelism of Neural Network
Training [12.755664985045582]
本稿では,深層ニューラルネットワークの分解を調整可能なサブネットワーク分割法(TSSM)を提案する。
提案するTSSMは,トレーニング精度を損なうことなく,大幅な高速化を実現することができる。
論文 参考訳(メタデータ) (2020-09-09T01:05:12Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Robust Learning Rate Selection for Stochastic Optimization via Splitting
Diagnostic [5.395127324484869]
SplitSGDは最適化のための新しい動的学習スケジュールである。
本手法は,対象関数の局所的幾何への適応性を向上するために学習率を低下させる。
基本的には標準のSGDよりも計算コストがかかるわけではない。
論文 参考訳(メタデータ) (2019-10-18T19:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。