論文の概要: Training Neural Networks in Single vs Double Precision
- arxiv url: http://arxiv.org/abs/2209.07219v1
- Date: Thu, 15 Sep 2022 11:20:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-16 13:08:48.074138
- Title: Training Neural Networks in Single vs Double Precision
- Title(参考訳): ニューラルネットワークを1対2の精度でトレーニングする
- Authors: Tomas Hrycej, Bernhard Bermeitinger, Siegfried Handschuh
- Abstract要約: 共役勾配アルゴリズムとRMSpropアルゴリズムは平均二乗誤差に最適化される。
実験の結果,直線探索が改良された場合,単精度は2倍精度で追従できることがわかった。
強い非線形問題に対して、両方のアルゴリズムクラスは平均二乗誤差の点で解がかなり乏しいだけである。
- 参考スコア(独自算出の注目度): 8.036150169408241
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The commitment to single-precision floating-point arithmetic is widespread in
the deep learning community. To evaluate whether this commitment is justified,
the influence of computing precision (single and double precision) on the
optimization performance of the Conjugate Gradient (CG) method (a second-order
optimization algorithm) and RMSprop (a first-order algorithm) has been
investigated. Tests of neural networks with one to five fully connected hidden
layers and moderate or strong nonlinearity with up to 4 million network
parameters have been optimized for Mean Square Error (MSE). The training tasks
have been set up so that their MSE minimum was known to be zero. Computing
experiments have disclosed that single-precision can keep up (with superlinear
convergence) with double-precision as long as line search finds an improvement.
First-order methods such as RMSprop do not benefit from double precision.
However, for moderately nonlinear tasks, CG is clearly superior. For strongly
nonlinear tasks, both algorithm classes find only solutions fairly poor in
terms of mean square error as related to the output variance. CG with double
floating-point precision is superior whenever the solutions have the potential
to be useful for the application goal.
- Abstract(参考訳): 単一精度浮動小数点演算へのコミットメントは、ディープラーニングコミュニティに広く普及している。
このコミットメントが正当であるかどうかを評価するため、共役勾配法(二階最適化アルゴリズム)とrmsprop法(一階最適化アルゴリズム)の最適化性能に対する計算精度(単精度と倍精度)の影響について検討した。
最大400万のネットワークパラメータを持つ1から5つの完全に接続された層と、中程度のあるいは強い非線形性を持つニューラルネットワークのテストは、Mean Square Error(MSE)に最適化されている。
トレーニングタスクは、MSEの最小値が0であることがわかっているように設定されている。
計算実験により、直線探索が改善される限り、単精度は2倍精度で(超線形収束と共に)追随できることが明らかとなった。
RMSpropのような一階法は二重精度の恩恵を受けない。
しかし、適度に非線形なタスクでは、CGは明らかに優れている。
強非線形タスクでは、両方のアルゴリズムクラスは出力分散に関する平均二乗誤差の点でかなり貧弱な解のみを見つける。
二重浮動小数点精度のCGは、ソリューションがアプリケーションゴールに有用な可能性を持つ場合、より優れている。
関連論文リスト
- Efficient and Effective Methods for Mixed Precision Neural Network
Quantization for Faster, Energy-efficient Inference [3.3213055774512648]
ネットワークの精度を下げるための量子化は、ネットワークを単純化する強力な技術である。
混合精度量子化法は,各レイヤの精度を選択的に調整し,タスク性能の最小低下を実現する。
タスク性能に及ぼすレイヤー精度選択の影響を推定するために,2つの方法を紹介した。
EAGLとALPSを用いて4ビット層と2ビット層を混合して完全精度を復元する。
論文 参考訳(メタデータ) (2023-01-30T23:26:33Z) - Efficient first-order predictor-corrector multiple objective
optimization for fair misinformation detection [5.139559672771439]
多重目的最適化(MOO)は、複数の競合する目的を同時に最適化することを目的としており、機械学習において重要な応用を見出した。
本稿では,線形にしかスケールしないガウスニュートン近似を提案し,イテレーション毎に一階内積しか必要としない。
このイノベーションは、大規模ネットワークで予測器のコレクタを可能にする。
論文 参考訳(メタデータ) (2022-09-15T12:32:15Z) - A Simple Approach to Improve Single-Model Deep Uncertainty via
Distance-Awareness [33.09831377640498]
本研究では,1つの決定論的表現に基づく1つのネットワークの不確実性向上手法について検討する。
本稿では,現代のDNNにおける距離認識能力を向上させる簡易な手法として,スペクトル正規化ニューラルガウス過程(SNGP)を提案する。
ビジョンと言語理解のベンチマークスイートでは、SNGPは予測、キャリブレーション、ドメイン外検出において、他の単一モデルアプローチよりも優れている。
論文 参考訳(メタデータ) (2022-05-01T05:46:13Z) - Large-scale Optimization of Partial AUC in a Range of False Positive
Rates [51.12047280149546]
ROC曲線 (AUC) の下の領域は、機械学習において最も広く使われている分類モデルのパフォーマンス指標の1つである。
近年の封筒平滑化技術に基づく効率的な近似勾配降下法を開発した。
提案アルゴリズムは,効率のよい解法を欠くランク付けされた範囲損失の和を最小化するためにも利用できる。
論文 参考訳(メタデータ) (2022-03-03T03:46:18Z) - Provable Stochastic Optimization for Global Contrastive Learning: Small
Batch Does Not Harm Performance [53.49803579981569]
各正の対と全ての負の対をアンカーポイントで対比する、コントラスト学習のグローバルな目的を考える。
SimCLRのような既存のメソッドは、十分な結果を得るために大きなバッチサイズを必要とする。
本稿では,SogCLRという表現のグローバルコントラスト学習を解くためのメモリ効率の最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-24T22:16:53Z) - Boost Neural Networks by Checkpoints [9.411567653599358]
本稿では,ディープニューラルネットワーク(DNN)のチェックポイントをアンサンブルする新しい手法を提案する。
同じトレーニング予算で,Cifar-100では4.16%,Tiny-ImageNetでは6.96%,ResNet-110アーキテクチャでは6.96%の誤差を達成した。
論文 参考訳(メタデータ) (2021-10-03T09:14:15Z) - GOALS: Gradient-Only Approximations for Line Searches Towards Robust and
Consistent Training of Deep Neural Networks [0.0]
ミニバッチサブサンプリング(MBSS)は、計算コストを削減するために、ディープニューラルネットワークトレーニングで好まれる。
最適性基準が定義された強い収束特性を持つ勾配限定近似線探索(GOALS)を提案する。
論文 参考訳(メタデータ) (2021-05-23T11:21:01Z) - Learning Neural Network Subspaces [74.44457651546728]
近年の観測は,ニューラルネットワーク最適化の展望の理解を深めている。
1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
論文 参考訳(メタデータ) (2021-02-20T23:26:58Z) - Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth
Nonlinear TD Learning [145.54544979467872]
本稿では,各ステップごとに1つのデータポイントしか必要としない2つの単一スケールシングルループアルゴリズムを提案する。
本研究の結果は, 同時一次および二重側収束の形で表される。
論文 参考訳(メタデータ) (2020-08-23T20:36:49Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。