論文の概要: An Efficient Approach to Mitigate Numerical Instability in
Backpropagation for 16-bit Neural Network Training
- arxiv url: http://arxiv.org/abs/2307.16189v1
- Date: Sun, 30 Jul 2023 10:03:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 17:07:10.853088
- Title: An Efficient Approach to Mitigate Numerical Instability in
Backpropagation for 16-bit Neural Network Training
- Title(参考訳): 16ビットニューラルネットワークトレーニングにおけるバックプロパゲーションにおける数値的不安定さの軽減法
- Authors: Juyoung Yun
- Abstract要約: この不安定性は、ディープニューラルネットワークのトレーニングフェーズで一般的に経験される。
エプシロン値の調整は、RMSPropとAdamの機能を復元することができる。
本研究は,低精度計算における最適化の理解の向上に寄与する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In this research, we delve into the intricacies of the numerical instability
observed in 16-bit computations of machine learning models, particularly when
employing popular optimization algorithms such as RMSProp and Adam. This
instability is commonly experienced during the training phase of deep neural
networks, leading to disrupted learning processes and hindering the effective
deployment of such models. We identify the single hyperparameter, epsilon, as
the main culprit behind this numerical instability. An in-depth exploration of
the role of epsilon in these optimizers within 16-bit computations reveals that
a minor adjustment of its value can restore the functionality of RMSProp and
Adam, consequently enabling the effective utilization of 16-bit neural
networks. We propose a novel method to mitigate the identified numerical
instability issues. This method capitalizes on the updates from the Adam
optimizer and significantly improves the robustness of the learning process in
16-bit computations. This study contributes to better understanding of
optimization in low-precision computations and provides an effective solution
to a longstanding issue in training deep neural networks, opening new avenues
for more efficient and stable model training.
- Abstract(参考訳): 本研究では,機械学習モデルの16ビット計算において観測される数値不安定性の複雑さ,特にRMSPropやAdamのような一般的な最適化アルゴリズムを用いる場合について検討する。
この不安定性は、ディープニューラルネットワークのトレーニングフェーズで一般的に経験され、学習プロセスを混乱させ、そのようなモデルの効果的な展開を妨げる。
この数値不安定性の背後にある主要な原因は、単一の超パラメータであるエプシロンである。
これらのオプティマイザにおける16ビット計算におけるepsilonの役割の詳細な調査により、その値の微調整がrmspropとadamの機能を回復し、16ビットニューラルネットワークの有効利用を可能にすることが明らかとなった。
同定された数値不安定問題を軽減する新しい手法を提案する。
この手法は,Adamオプティマイザからの更新を活かし,16ビット計算における学習プロセスの堅牢性を大幅に向上させる。
本研究は、低精度計算における最適化の理解を深め、より効率的で安定したモデルトレーニングのための新しい道を開く深層ニューラルネットワークの訓練における長年の課題に対して効果的な解決策を提供する。
関連論文リスト
- The Boundaries of Verifiable Accuracy, Robustness, and Generalisation in Deep Learning [71.14237199051276]
経験的リスクを最小限に抑えるため,古典的な分布に依存しないフレームワークとアルゴリズムを検討する。
理想的な安定かつ正確なニューラルネットワークの計算と検証が極めて難しいタスク群が存在することを示す。
論文 参考訳(メタデータ) (2023-09-13T16:33:27Z) - Fixing Overconfidence in Dynamic Neural Networks [21.148621590039582]
本稿では,動的ニューラルネットワークにおける不確かさの定量化に有効な手法を提案する。
CIFAR-100, ImageNet, Caltech-256の精度, 不確実性, 校正誤差の点で改善点を示す。
論文 参考訳(メタデータ) (2023-02-13T13:45:50Z) - Can pruning improve certified robustness of neural networks? [106.03070538582222]
ニューラルネット・プルーニングはディープ・ニューラル・ネットワーク(NN)の実証的ロバスト性を向上させることができることを示す。
実験の結果,NNを適切に刈り取ることで,その精度を8.2%まで向上させることができることがわかった。
さらに,認証された宝くじの存在が,従来の密集モデルの標準および認証された堅牢な精度に一致することを観察する。
論文 参考訳(メタデータ) (2022-06-15T05:48:51Z) - lpSpikeCon: Enabling Low-Precision Spiking Neural Network Processing for
Efficient Unsupervised Continual Learning on Autonomous Agents [14.916996986290902]
効率的な教師なし連続学習のための低精度SNN処理を可能にする新しい手法であるlpSpikeConを提案する。
我々のlpSpikeConは、教師なし連続学習によるオンライントレーニングを行うために、SNNモデルの重量記憶を8倍(すなわち、4ビットの重みを司法的に採用することで)削減することができる。
論文 参考訳(メタデータ) (2022-05-24T18:08:16Z) - Comparative Analysis of Interval Reachability for Robust Implicit and
Feedforward Neural Networks [64.23331120621118]
我々は、暗黙的ニューラルネットワーク(INN)の堅牢性を保証するために、区間到達可能性分析を用いる。
INNは暗黙の方程式をレイヤとして使用する暗黙の学習モデルのクラスである。
提案手法は, INNに最先端の区間境界伝搬法を適用するよりも, 少なくとも, 一般的には, 有効であることを示す。
論文 参考訳(メタデータ) (2022-04-01T03:31:27Z) - Dynamic Neural Diversification: Path to Computationally Sustainable
Neural Networks [68.8204255655161]
訓練可能なパラメータが制限された小さなニューラルネットワークは、多くの単純なタスクに対してリソース効率の高い候補となる。
学習過程において隠れた層内のニューロンの多様性を探索する。
ニューロンの多様性がモデルの予測にどのように影響するかを分析する。
論文 参考訳(メタデータ) (2021-09-20T15:12:16Z) - Robust Optimization Framework for Training Shallow Neural Networks Using
Reachability Method [1.9798034349981157]
ニューラルネットワークの到達可能性分析に基づいて、浅いニューラルネットワークをトレーニングする堅牢な最適化フレームワークを開発した。
開発したロバスト学習法は,トレーニング精度の損失に対して,摂動に対する堅牢性を向上できることを示した。
論文 参考訳(メタデータ) (2021-07-27T13:16:20Z) - Gradient Descent on Neural Networks Typically Occurs at the Edge of
Stability [94.4070247697549]
ニューラルネットワークトレーニング対象に対するフルバッチ勾配降下は、安定性のエッジと呼ばれるレジームで動作します。
この体制では、トレーニング損失 Hessian の最大固有値は2/text(ステップサイズ)$ の数値よりすぐ上にあり、トレーニング損失は短い時間スケールで非単調に振る舞うが、長い時間スケールでは一貫して減少する。
論文 参考訳(メタデータ) (2021-02-26T22:08:19Z) - Bayesian Neural Networks at Scale: A Performance Analysis and Pruning
Study [2.3605348648054463]
本研究は,BNNを大規模にトレーニングする際の課題に対処するために,分散トレーニングを用いた高性能コンピューティングの利用について検討する。
我々は,Cray-XC40クラスタ上でのVGG-16とResnet-18モデルのトレーニング性能とスケーラビリティの比較を行った。
論文 参考訳(メタデータ) (2020-05-23T23:15:34Z) - Stable Neural Flows [15.318500611972441]
ニューラルネットワークによってパラメータ化されたエネルギー汎関数上で軌道が進化するニューラル常微分方程式(ニューラルODE)の確率的に安定な変種を導入する。
学習手順は最適制御問題としてキャストされ、随伴感性分析に基づいて近似解が提案される。
論文 参考訳(メタデータ) (2020-03-18T06:27:21Z) - Towards Unified INT8 Training for Convolutional Neural Network [83.15673050981624]
共用畳み込みニューラルネットワークのための統合8ビット(INT8)トレーニングフレームワークを構築した。
まず、勾配の4つの特徴を経験的に発見し、勾配量子化の洞察力のある手がかりを与える。
勾配の方向ずれを低減させる方向感度勾配クリッピングを含む2つの普遍的手法を提案する。
論文 参考訳(メタデータ) (2019-12-29T08:37:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。