論文の概要: Input Normalized Stochastic Gradient Descent Training of Deep Neural
Networks
- arxiv url: http://arxiv.org/abs/2212.09921v2
- Date: Mon, 26 Jun 2023 19:43:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 17:37:31.180340
- Title: Input Normalized Stochastic Gradient Descent Training of Deep Neural
Networks
- Title(参考訳): ディープニューラルネットワークの入力正規化確率勾配降下訓練
- Authors: Salih Atici, Hongyi Pan, Ahmet Enis Cetin
- Abstract要約: 本稿では,入力正規化勾配 Descent (INSGD) と呼ばれる機械学習モデルを学習するための新しい最適化アルゴリズムを提案する。
我々のアルゴリズムは,NLMSと同様,学習速度に適用した$ell_$および$ell_$ベースの正規化を用いて,勾配勾配を用いてネットワーク重みを更新する。
本稿では,ResNet-18,WResNet-20,ResNet-50,玩具ニューラルネットワークを用いて,ベンチマークデータセット上でのトレーニングアルゴリズムの有効性を評価する。
- 参考スコア(独自算出の注目度): 2.1485350418225244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose a novel optimization algorithm for training machine
learning models called Input Normalized Stochastic Gradient Descent (INSGD),
inspired by the Normalized Least Mean Squares (NLMS) algorithm used in adaptive
filtering. When training complex models on large datasets, the choice of
optimizer parameters, particularly the learning rate, is crucial to avoid
divergence. Our algorithm updates the network weights using stochastic gradient
descent with $\ell_1$ and $\ell_2$-based normalizations applied to the learning
rate, similar to NLMS. However, unlike existing normalization methods, we
exclude the error term from the normalization process and instead normalize the
update term using the input vector to the neuron. Our experiments demonstrate
that our optimization algorithm achieves higher accuracy levels compared to
different initialization settings. We evaluate the efficiency of our training
algorithm on benchmark datasets using ResNet-18, WResNet-20, ResNet-50, and a
toy neural network. Our INSGD algorithm improves the accuracy of ResNet-18 on
CIFAR-10 from 92.42\% to 92.71\%, WResNet-20 on CIFAR-100 from 76.20\% to
77.39\%, and ResNet-50 on ImageNet-1K from 75.52\% to 75.67\%.
- Abstract(参考訳): 本稿では,適応フィルタリングに使用される正規化最小値正方形 (NLMS) アルゴリズムに着想を得て,入力正規化確率勾配 Descent (INSGD) と呼ばれる機械学習モデルの学習アルゴリズムを提案する。
大規模なデータセット上で複雑なモデルをトレーニングする場合、特に学習率の最適化パラメータの選択は、ばらつきを避けるために不可欠である。
我々のアルゴリズムは,NLMSと同様,学習速度に適用した$\ell_1$および$\ell_2$ベースの正規化を用いて,確率勾配勾配を用いてネットワーク重みを更新する。
しかし、従来の正規化法とは異なり、正規化過程からエラー項を除外し、代わりに入力ベクトルを用いてニューロンに更新項を正規化する。
実験の結果,最適化アルゴリズムは初期化設定の異なる場合に比べて精度が高いことがわかった。
本稿では,ResNet-18,WResNet-20,ResNet-50,玩具ニューラルネットワークを用いて,ベンチマークデータセット上でのトレーニングアルゴリズムの有効性を評価する。
我々のINSGDアルゴリズムは、CIFAR-10のResNet-18を92.42\%から92.71\%に、CIFAR-100のWResNet-20を76.20\%から77.39\%に、ImageNet-1KのResNet-50を75.52\%から75.67\%に改善した。
関連論文リスト
- Towards Generalized Entropic Sparsification for Convolutional Neural Networks [0.0]
畳み込みニューラルネットワーク(CNN)は過度にパラメータ化されていると報告されている。
本稿では,計算可能エントロピー緩和を目的とした数学的アイデアに基づく層間データ駆動プルーニング手法を提案する。
スパースサブネットワークは、ネットワークエントロピー最小化をスペーサ性制約として使用した、事前訓練された(フル)CNNから得られる。
論文 参考訳(メタデータ) (2024-04-06T21:33:39Z) - Genetically Modified Wolf Optimization with Stochastic Gradient Descent
for Optimising Deep Neural Networks [0.0]
本研究の目的は、人口ベースメタヒューリスティックアルゴリズムを用いて、ニューラルネットワーク(NN)重み付けを最適化するための代替アプローチを分析することである。
Grey Wolf (GWO) と Genetic Modified Algorithms (GA) のハイブリッドをグラディエント・Descent (SGD) と組み合わせて検討した。
このアルゴリズムは、高次元性の問題にも対処しながら、エクスプロイトと探索の組み合わせを可能にする。
論文 参考訳(メタデータ) (2023-01-21T13:22:09Z) - Towards Theoretically Inspired Neural Initialization Optimization [66.04735385415427]
我々は,ニューラルネットワークの初期状態を評価するための理論的知見を備えた,GradCosineという微分可能な量を提案する。
標準制約下でGradCosineを最大化することにより、ネットワークのトレーニングとテストの両方の性能を向上させることができることを示す。
サンプル分析から実際のバッチ設定に一般化されたNIOは、無視可能なコストで、より優れた初期化を自動で探すことができる。
論文 参考訳(メタデータ) (2022-10-12T06:49:16Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Exploiting Adam-like Optimization Algorithms to Improve the Performance
of Convolutional Neural Networks [82.61182037130405]
勾配降下(SGD)は深いネットワークを訓練するための主要なアプローチです。
本研究では,現在と過去の勾配の違いに基づいて,Adamに基づく変分を比較する。
resnet50を勾配降下訓練したネットワークのアンサンブルと融合実験を行った。
論文 参考訳(メタデータ) (2021-03-26T18:55:08Z) - GradInit: Learning to Initialize Neural Networks for Stable and
Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。
各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。
また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文 参考訳(メタデータ) (2021-02-16T11:45:35Z) - Non-Parametric Adaptive Network Pruning [125.4414216272874]
アルゴリズム設計を簡略化するノンパラメトリックモデリングを導入。
顔認識コミュニティに触発されて,メッセージパッシングアルゴリズムを用いて,適応的な例示数を求める。
EPrunerは「重要」フィルタを決定する際にトレーニングデータへの依存を壊します。
論文 参考訳(メタデータ) (2021-01-20T06:18:38Z) - Training Sparse Neural Networks using Compressed Sensing [13.84396596420605]
本研究では,プレニングとトレーニングを1ステップに組み合わせた圧縮センシングに基づく新しい手法の開発と試験を行う。
具体的には、トレーニング中の重みを適応的に重み付けした$ell1$のペナルティを利用して、スパースニューラルネットワークをトレーニングするために、正規化二重平均化(RDA)アルゴリズムの一般化と組み合わせる。
論文 参考訳(メタデータ) (2020-08-21T19:35:54Z) - Filter Sketch for Network Pruning [184.41079868885265]
事前学習したネットワーク重み(フィルタ)の情報保存による新しいネットワークプルーニング手法を提案する。
われわれのアプローチは、FilterSketchと呼ばれ、事前訓練された重みの2次情報を符号化する。
CIFAR-10の実験では、FilterSketchはFLOPの63.3%を削減し、ネットワークパラメータの59.9%を無視できる精度で削減している。
論文 参考訳(メタデータ) (2020-01-23T13:57:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。