論文の概要: S-SGD: Symmetrical Stochastic Gradient Descent with Weight Noise
Injection for Reaching Flat Minima
- arxiv url: http://arxiv.org/abs/2009.02479v1
- Date: Sat, 5 Sep 2020 07:02:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 20:33:40.730963
- Title: S-SGD: Symmetrical Stochastic Gradient Descent with Weight Noise
Injection for Reaching Flat Minima
- Title(参考訳): S-SGD:平板リフレッシュ用軽量ノイズ注入による対称確率勾配発振
- Authors: Wonyong Sung, Iksoo Choi, Jinhwan Park, Seokhyun Choi, Sungho Shin
- Abstract要約: 勾配降下法(SGD)はディープニューラルネットワーク(DNN)訓練に最も広く用いられている。
SGD法を用いて, 平坦な最小値を求めるため, 軽量ノイズ注入法が広く研究されている。
重みに対称雑音を加えるSGD法を考案した。
- 参考スコア(独自算出の注目度): 22.46916792590578
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The stochastic gradient descent (SGD) method is most widely used for deep
neural network (DNN) training. However, the method does not always converge to
a flat minimum of the loss surface that can demonstrate high generalization
capability. Weight noise injection has been extensively studied for finding
flat minima using the SGD method. We devise a new weight-noise injection-based
SGD method that adds symmetrical noises to the DNN weights. The training with
symmetrical noise evaluates the loss surface at two adjacent points, by which
convergence to sharp minima can be avoided. Fixed-magnitude symmetric noises
are added to minimize training instability. The proposed method is compared
with the conventional SGD method and previous weight-noise injection algorithms
using convolutional neural networks for image classification. Particularly,
performance improvements in large batch training are demonstrated. This method
shows superior performance compared with conventional SGD and weight-noise
injection methods regardless of the batch-size and learning rate scheduling
algorithms.
- Abstract(参考訳): 確率勾配降下法(sgd法)は深層ニューラルネットワーク(dnn)訓練に最も広く用いられている。
しかし、この方法は必ずしも、高一般化能力を示すことができる損失面の最小限に収束するとは限らない。
SGD法を用いて平坦な最小値を求めるため, 重量雑音注入法が広く研究されている。
本研究では,dnnの重み付けに対称なノイズを付加する新しい重み付け注入型sgd法を考案する。
対称雑音によるトレーニングは、2つの隣接点における損失面を評価し、鋭い最小値への収束を回避できる。
トレーニング不安定性を最小限に抑えるため、固定磁気対称ノイズが追加される。
画像分類のための畳み込みニューラルネットワークを用いた従来のsgd法と従来の重み雑音注入アルゴリズムとの比較を行った。
特に大規模なバッチトレーニングのパフォーマンス向上が示されている。
本手法は,バッチサイズ・学習速度スケジューリングアルゴリズムによらず,従来のSGD法やウェイトノイズ注入法と比較して優れた性能を示す。
関連論文リスト
- Understanding the robustness difference between stochastic gradient
descent and adaptive gradient methods [11.895321856533934]
勾配降下法(SGD)と適応勾配法はディープニューラルネットワークの訓練に広く用いられている。
これらの手法を用いて訓練したモデルの標準一般化性能の差は小さいが、SGDを用いて訓練したモデルは入力摂動下でははるかに頑健であることを示す。
論文 参考訳(メタデータ) (2023-08-13T07:03:22Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - A Novel Noise Injection-based Training Scheme for Better Model
Robustness [9.749718440407811]
ノイズインジェクションに基づく手法は、人工ニューラルネットワークの堅牢性を向上させることができることが示されている。
本研究では,より優れたモデルロバスト性を実現するための新しいノイズ注入型トレーニング手法を提案する。
実験結果から,提案手法は対向的ロバスト性において性能が向上し,元の精度では若干性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-02-17T02:50:25Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - The effective noise of Stochastic Gradient Descent [9.645196221785694]
Gradient Descent (SGD) は、ディープラーニング技術のワークホースアルゴリズムである。
SGDのパラメータと最近導入された変種である永続型SGDをニューラルネットワークモデルで特徴づける。
よりノイズの多いアルゴリズムは、対応する制約満足度問題のより広い決定境界につながる。
論文 参考訳(メタデータ) (2021-12-20T20:46:19Z) - Differentially private training of neural networks with Langevin
dynamics forcalibrated predictive uncertainty [58.730520380312676]
その結果,DP-SGD(差分偏差勾配勾配勾配勾配勾配)は,低校正・過信深層学習モデルが得られることがわかった。
これは、医療診断など、安全クリティカルな応用にとって深刻な問題である。
論文 参考訳(メタデータ) (2021-07-09T08:14:45Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z) - Neural networks with late-phase weights [66.72777753269658]
学習後期に重みのサブセットを組み込むことで,SGDの解をさらに改善できることを示す。
学習の終わりに、重み空間における空間平均を取ることにより、1つのモデルを取得する。
論文 参考訳(メタデータ) (2020-07-25T13:23:37Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Semi-Implicit Back Propagation [1.5533842336139065]
ニューラルネットワークトレーニングのための半単純バック伝搬法を提案する。
ニューロンの差は後方方向に伝播し、パラメータは近位写像で更新される。
MNISTとCIFAR-10の両方の実験により、提案アルゴリズムは損失減少とトレーニング/検証の精度の両方において、より良い性能をもたらすことが示された。
論文 参考訳(メタデータ) (2020-02-10T03:26:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。