論文の概要: Normalized Stochastic Gradient Descent Training of Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2212.09921v1
- Date: Tue, 20 Dec 2022 00:08:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 17:18:46.314066
- Title: Normalized Stochastic Gradient Descent Training of Deep Neural Networks
- Title(参考訳): ディープニューラルネットワークの正規化確率勾配降下訓練
- Authors: Salih Atici, Hongyi Pan, Ahmet Enis Cetin
- Abstract要約: 正規化勾配 Descent (NSGD) と呼ばれる機械学習モデルトレーニングのための新しい最適化アルゴリズムを提案する。
実験の結果,最適化アルゴリズムを用いて,初期設定の精度を向上できることがわかった。
- 参考スコア(独自算出の注目度): 2.1485350418225244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce a novel optimization algorithm for machine
learning model training called Normalized Stochastic Gradient Descent (NSGD)
inspired by Normalized Least Mean Squares (NLMS) from adaptive filtering. When
we train a high-complexity model on a large dataset, the learning rate is
significantly important as a poor choice of optimizer parameters can lead to
divergence. The algorithm updates the new set of network weights using the
stochastic gradient but with $\ell_1$ and $\ell_2$-based normalizations on the
learning rate parameter similar to the NLMS algorithm. Our main difference from
the existing normalization methods is that we do not include the error term in
the normalization process. We normalize the update term using the input vector
to the neuron. Our experiments present that the model can be trained to a
better accuracy level on different initial settings using our optimization
algorithm. In this paper, we demonstrate the efficiency of our training
algorithm using ResNet-20 and a toy neural network on different benchmark
datasets with different initializations. The NSGD improves the accuracy of the
ResNet-20 from 91.96\% to 92.20\% on the CIFAR-10 dataset.
- Abstract(参考訳): 本稿では,正規化リースト平均角(NLMS)にインスパイアされた正規化確率勾配 Descent (NSGD) と呼ばれる機械学習モデルトレーニングのための新しい最適化アルゴリズムを提案する。
大規模データセット上で高複雑性モデルをトレーニングする場合、オプティマイザパラメータの貧弱な選択が分散につながるため、学習速度は極めて重要である。
アルゴリズムは確率勾配を用いて新しいネットワーク重みの集合を更新するが、NLMSアルゴリズムと同様の学習率パラメータ上で$\ell_1$および$\ell_2$ベースの正規化を行う。
既存の正規化手法との主な違いは、正規化プロセスでエラー項を含まないことです。
ニューロンへの入力ベクトルを用いた更新項の正規化を行う。
本実験では,最適化アルゴリズムを用いて,初期設定の精度を向上できることを示す。
本稿では,ResNet-20を用いたトレーニングアルゴリズムと,異なる初期化を伴う異なるベンチマークデータセット上でのトイニューラルネットワークの効率を実証する。
NSGDはResNet-20の精度を91.96\%から92.20\%に改善している。
関連論文リスト
- Towards Generalized Entropic Sparsification for Convolutional Neural Networks [0.0]
畳み込みニューラルネットワーク(CNN)は過度にパラメータ化されていると報告されている。
本稿では,計算可能エントロピー緩和を目的とした数学的アイデアに基づく層間データ駆動プルーニング手法を提案する。
スパースサブネットワークは、ネットワークエントロピー最小化をスペーサ性制約として使用した、事前訓練された(フル)CNNから得られる。
論文 参考訳(メタデータ) (2024-04-06T21:33:39Z) - Genetically Modified Wolf Optimization with Stochastic Gradient Descent
for Optimising Deep Neural Networks [0.0]
本研究の目的は、人口ベースメタヒューリスティックアルゴリズムを用いて、ニューラルネットワーク(NN)重み付けを最適化するための代替アプローチを分析することである。
Grey Wolf (GWO) と Genetic Modified Algorithms (GA) のハイブリッドをグラディエント・Descent (SGD) と組み合わせて検討した。
このアルゴリズムは、高次元性の問題にも対処しながら、エクスプロイトと探索の組み合わせを可能にする。
論文 参考訳(メタデータ) (2023-01-21T13:22:09Z) - Towards Theoretically Inspired Neural Initialization Optimization [66.04735385415427]
我々は,ニューラルネットワークの初期状態を評価するための理論的知見を備えた,GradCosineという微分可能な量を提案する。
標準制約下でGradCosineを最大化することにより、ネットワークのトレーニングとテストの両方の性能を向上させることができることを示す。
サンプル分析から実際のバッチ設定に一般化されたNIOは、無視可能なコストで、より優れた初期化を自動で探すことができる。
論文 参考訳(メタデータ) (2022-10-12T06:49:16Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Exploiting Adam-like Optimization Algorithms to Improve the Performance
of Convolutional Neural Networks [82.61182037130405]
勾配降下(SGD)は深いネットワークを訓練するための主要なアプローチです。
本研究では,現在と過去の勾配の違いに基づいて,Adamに基づく変分を比較する。
resnet50を勾配降下訓練したネットワークのアンサンブルと融合実験を行った。
論文 参考訳(メタデータ) (2021-03-26T18:55:08Z) - GradInit: Learning to Initialize Neural Networks for Stable and
Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。
各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。
また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文 参考訳(メタデータ) (2021-02-16T11:45:35Z) - Non-Parametric Adaptive Network Pruning [125.4414216272874]
アルゴリズム設計を簡略化するノンパラメトリックモデリングを導入。
顔認識コミュニティに触発されて,メッセージパッシングアルゴリズムを用いて,適応的な例示数を求める。
EPrunerは「重要」フィルタを決定する際にトレーニングデータへの依存を壊します。
論文 参考訳(メタデータ) (2021-01-20T06:18:38Z) - Training Sparse Neural Networks using Compressed Sensing [13.84396596420605]
本研究では,プレニングとトレーニングを1ステップに組み合わせた圧縮センシングに基づく新しい手法の開発と試験を行う。
具体的には、トレーニング中の重みを適応的に重み付けした$ell1$のペナルティを利用して、スパースニューラルネットワークをトレーニングするために、正規化二重平均化(RDA)アルゴリズムの一般化と組み合わせる。
論文 参考訳(メタデータ) (2020-08-21T19:35:54Z) - Filter Sketch for Network Pruning [184.41079868885265]
事前学習したネットワーク重み(フィルタ)の情報保存による新しいネットワークプルーニング手法を提案する。
われわれのアプローチは、FilterSketchと呼ばれ、事前訓練された重みの2次情報を符号化する。
CIFAR-10の実験では、FilterSketchはFLOPの63.3%を削減し、ネットワークパラメータの59.9%を無視できる精度で削減している。
論文 参考訳(メタデータ) (2020-01-23T13:57:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。