Fugu-MT 論文翻訳(概要): Training Neural Networks in Single vs Double Precision

論文の概要: Training Neural Networks in Single vs Double Precision

arxiv url: http://arxiv.org/abs/2209.07219v1
Date: Thu, 15 Sep 2022 11:20:53 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-16 13:08:48.074138
Title: Training Neural Networks in Single vs Double Precision
Title（参考訳）: ニューラルネットワークを1対2の精度でトレーニングする
Authors: Tomas Hrycej, Bernhard Bermeitinger, Siegfried Handschuh
Abstract要約: 共役勾配アルゴリズムとRMSpropアルゴリズムは平均二乗誤差に最適化される。実験の結果,直線探索が改良された場合,単精度は2倍精度で追従できることがわかった。強い非線形問題に対して、両方のアルゴリズムクラスは平均二乗誤差の点で解がかなり乏しいだけである。
参考スコア（独自算出の注目度）: 8.036150169408241
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The commitment to single-precision floating-point arithmetic is widespread in the deep learning community. To evaluate whether this commitment is justified, the influence of computing precision (single and double precision) on the optimization performance of the Conjugate Gradient (CG) method (a second-order optimization algorithm) and RMSprop (a first-order algorithm) has been investigated. Tests of neural networks with one to five fully connected hidden layers and moderate or strong nonlinearity with up to 4 million network parameters have been optimized for Mean Square Error (MSE). The training tasks have been set up so that their MSE minimum was known to be zero. Computing experiments have disclosed that single-precision can keep up (with superlinear convergence) with double-precision as long as line search finds an improvement. First-order methods such as RMSprop do not benefit from double precision. However, for moderately nonlinear tasks, CG is clearly superior. For strongly nonlinear tasks, both algorithm classes find only solutions fairly poor in terms of mean square error as related to the output variance. CG with double floating-point precision is superior whenever the solutions have the potential to be useful for the application goal.
Abstract（参考訳）: 単一精度浮動小数点演算へのコミットメントは、ディープラーニングコミュニティに広く普及している。このコミットメントが正当であるかどうかを評価するため、共役勾配法(二階最適化アルゴリズム)とrmsprop法(一階最適化アルゴリズム)の最適化性能に対する計算精度(単精度と倍精度)の影響について検討した。最大400万のネットワークパラメータを持つ1から5つの完全に接続された層と、中程度のあるいは強い非線形性を持つニューラルネットワークのテストは、Mean Square Error(MSE)に最適化されている。トレーニングタスクは、MSEの最小値が0であることがわかっているように設定されている。計算実験により、直線探索が改善される限り、単精度は2倍精度で(超線形収束と共に)追随できることが明らかとなった。 RMSpropのような一階法は二重精度の恩恵を受けない。しかし、適度に非線形なタスクでは、CGは明らかに優れている。強非線形タスクでは、両方のアルゴリズムクラスは出力分散に関する平均二乗誤差の点でかなり貧弱な解のみを見つける。二重浮動小数点精度のCGは、ソリューションがアプリケーションゴールに有用な可能性を持つ場合、より優れている。

関連論文リスト

Towards Practical Second-Order Optimizers in Deep Learning: Insights from Fisher Information Analysis [0.0]
本稿では、ディープニューラルネットワーク(DNN)のための新しい適応2階チューニングであるAdaFisherを紹介する。 AdaFisherは、改良された収束と2階法の一般化と、訓練に必要な計算効率とのギャップを埋めることを目的としている。我々はAdaFisherが精度と収束速度の両方で最先端の近似より優れていることを示す。
論文参考訳（メタデータ） (2025-04-26T05:02:21Z)
Efficient Second-Order Neural Network Optimization via Adaptive Trust Region Methods [0.0]
SecondOrderAdaptive (SOAA) は、従来の二階法の限界を克服するために設計された新しい最適化アルゴリズムである。私たちは、SOAAが1次近似よりも速く、より安定した収束を達成することを実証的に実証します。
論文参考訳（メタデータ） (2024-10-03T08:23:06Z)
AdaFisher: Adaptive Second Order Optimization via Fisher Information [22.851200800265914]
本稿では,適応型プレコンディショニング勾配のためのフィッシャー情報行列に対して,ブロック対角近似を利用する適応型2次のAdaFisherを提案する。 AdaFisher は精度と収束速度の両方において SOTA よりも優れていることを示す。
論文参考訳（メタデータ） (2024-05-26T01:25:02Z)
Guaranteed Approximation Bounds for Mixed-Precision Neural Operators [83.64404557466528]
我々は、ニューラル演算子学習が本質的に近似誤差を誘導する直感の上に構築する。提案手法では,GPUメモリ使用量を最大50%削減し,スループットを58%向上する。
論文参考訳（メタデータ） (2023-07-27T17:42:06Z)
Efficient first-order predictor-corrector multiple objective optimization for fair misinformation detection [5.139559672771439]
多重目的最適化(MOO)は、複数の競合する目的を同時に最適化することを目的としており、機械学習において重要な応用を見出した。本稿では,線形にしかスケールしないガウスニュートン近似を提案し,イテレーション毎に一階内積しか必要としない。このイノベーションは、大規模ネットワークで予測器のコレクタを可能にする。
論文参考訳（メタデータ） (2022-09-15T12:32:15Z)
Large-scale Optimization of Partial AUC in a Range of False Positive Rates [51.12047280149546]
ROC曲線 (AUC) の下の領域は、機械学習において最も広く使われている分類モデルのパフォーマンス指標の1つである。近年の封筒平滑化技術に基づく効率的な近似勾配降下法を開発した。提案アルゴリズムは,効率のよい解法を欠くランク付けされた範囲損失の和を最小化するためにも利用できる。
論文参考訳（メタデータ） (2022-03-03T03:46:18Z)
Provable Stochastic Optimization for Global Contrastive Learning: Small Batch Does Not Harm Performance [53.49803579981569]
各正の対と全ての負の対をアンカーポイントで対比する、コントラスト学習のグローバルな目的を考える。 SimCLRのような既存のメソッドは、十分な結果を得るために大きなバッチサイズを必要とする。本稿では,SogCLRという表現のグローバルコントラスト学習を解くためのメモリ効率の最適化アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-02-24T22:16:53Z)
Boost Neural Networks by Checkpoints [9.411567653599358]
本稿では,ディープニューラルネットワーク(DNN)のチェックポイントをアンサンブルする新しい手法を提案する。同じトレーニング予算で,Cifar-100では4.16%,Tiny-ImageNetでは6.96%,ResNet-110アーキテクチャでは6.96%の誤差を達成した。
論文参考訳（メタデータ） (2021-10-03T09:14:15Z)
Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth Nonlinear TD Learning [145.54544979467872]
本稿では,各ステップごとに1つのデータポイントしか必要としない2つの単一スケールシングルループアルゴリズムを提案する。本研究の結果は, 同時一次および二重側収束の形で表される。
論文参考訳（メタデータ） (2020-08-23T20:36:49Z)
AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文参考訳（メタデータ） (2020-07-14T09:07:29Z)
Communication-Efficient Distributed Stochastic AUC Maximization with Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文参考訳（メタデータ） (2020-05-05T18:08:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。