論文の概要: On the Convergence of Stochastic Gradient Descent in Low-precision
Number Formats
- arxiv url: http://arxiv.org/abs/2301.01651v1
- Date: Wed, 4 Jan 2023 14:54:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 16:19:58.007030
- Title: On the Convergence of Stochastic Gradient Descent in Low-precision
Number Formats
- Title(参考訳): 低精度数フォーマットにおける確率勾配の収束性について
- Authors: Matteo Cacciola, Antonio Frangioni, Masoud Asgharian, Alireza
Ghaffari, Vahid Partovi Nia
- Abstract要約: SGD (Single-precision Gradient Descent) の収束は通常、実数の理論的結果と一致している。
しかし、計算が低精度の数値形式で実行されると、数値誤差が増大する。
これは、低精度計算に適応したSGD収束を研究するための説得力のある理由を与える。
- 参考スコア(独自算出の注目度): 3.408623772471354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning models are dominating almost all artificial intelligence tasks
such as vision, text, and speech processing. Stochastic Gradient Descent (SGD)
is the main tool for training such models, where the computations are usually
performed in single-precision floating-point number format. The convergence of
single-precision SGD is normally aligned with the theoretical results of real
numbers since they exhibit negligible error. However, the numerical error
increases when the computations are performed in low-precision number formats.
This provides compelling reasons to study the SGD convergence adapted for
low-precision computations. We present both deterministic and stochastic
analysis of the SGD algorithm, obtaining bounds that show the effect of number
format. Such bounds can provide guidelines as to how SGD convergence is
affected when constraints render the possibility of performing high-precision
computations remote.
- Abstract(参考訳): ディープラーニングモデルは、視覚、テキスト、音声処理など、ほぼすべての人工知能タスクを支配している。
Stochastic Gradient Descent (SGD) はそのようなモデルをトレーニングするための主要なツールであり、計算は通常単精度浮動小数点数形式で行われる。
単精度SGDの収束は通常、無視可能な誤差を示すため、実数の理論的結果と一致している。
しかし、計算が低精度数形式で行われると数値誤差が増加する。
これは、低精度計算に適応したsgd収束を研究する説得力のある理由を与える。
本稿では,SGDアルゴリズムの決定論的および確率論的解析を行い,数値形式の効果を示す境界を求める。
このような境界は、制約がリモートで高精度計算を行う可能性を示す場合、SGD収束がどのように影響を受けるかに関するガイドラインを提供することができる。
関連論文リスト
- Computation-Aware Gaussian Processes: Model Selection And Linear-Time Inference [55.150117654242706]
我々は、1.8万のデータポイントでトレーニングされた計算対応GPのモデル選択が、1つのGPU上で数時間以内に可能であることを示す。
この研究の結果、ガウス過程は、不確実性を定量化する能力を著しく妥協することなく、大規模なデータセットで訓練することができる。
論文 参考訳(メタデータ) (2024-11-01T21:11:48Z) - Provably Accelerating Ill-Conditioned Low-rank Estimation via Scaled
Gradient Descent, Even with Overparameterization [48.65416821017865]
この章では、スケールドグラデーション(ScaledGD)と呼ばれる新しいアルゴリズムアプローチを紹介します。
低ランク物体の条件数に依存しない定数速度で直線的に収束する。
様々なタスクに対して、勾配降下の低い摂動コストを維持できる。
論文 参考訳(メタデータ) (2023-10-09T21:16:57Z) - Guaranteed Approximation Bounds for Mixed-Precision Neural Operators [83.64404557466528]
我々は、ニューラル演算子学習が本質的に近似誤差を誘導する直感の上に構築する。
提案手法では,GPUメモリ使用量を最大50%削減し,スループットを58%向上する。
論文 参考訳(メタデータ) (2023-07-27T17:42:06Z) - Relationship between Batch Size and Number of Steps Needed for Nonconvex
Optimization of Stochastic Gradient Descent using Armijo Line Search [0.8158530638728501]
本研究では,SGDが深層数値線を用いた場合,他の深層学習ネットワークよりも優れた性能を示す。
その結果,バッチサイズが大きくなるにつれて,SFOに必要なステップ数を推定できることが示唆された。
論文 参考訳(メタデータ) (2023-07-25T21:59:17Z) - Variants of SGD for Lipschitz Continuous Loss Functions in Low-Precision Environments [6.418044102466421]
損失関数の勾配の近似のみを計算し、SGDステップ自体の誤差を計算できると仮定する。
SGDの異なる変種を経験的にテストし、2つの画像認識タスクに対してSGDと比較してテストセットの精度が改善された。
論文 参考訳(メタデータ) (2022-11-09T03:04:34Z) - Low-Precision Arithmetic for Fast Gaussian Processes [39.720581185327816]
低精度算術はニューラルネットワークの訓練に変換効果をもたらした。
本稿では,共役勾配の直交化,混合精度,プレコンディショニングを含む多面的アプローチを提案する。
提案手法は, 広範囲な設定において, 低精度での共役勾配の数値安定性と実用性能を著しく向上させる。
論文 参考訳(メタデータ) (2022-07-14T12:20:46Z) - Low-Precision Stochastic Gradient Langevin Dynamics [70.69923368584588]
本稿では,低精度のグラジエントランゲヴィンダイナミクスを初めて研究し,性能を犠牲にすることなくコストを大幅に削減できることを示した。
本研究では,各更新ステップの分散を保存したSGLDの新しい量子化関数を開発する。
我々は,低精度のSGLDが,様々なディープラーニングタスクにおいて8ビットしか持たない完全精度のSGLDに匹敵する性能を実現することを実証した。
論文 参考訳(メタデータ) (2022-06-20T17:25:41Z) - An Exponentially Increasing Step-size for Parameter Estimation in
Statistical Models [37.63410634069547]
本稿では,ガウス降下(GD)アルゴリズムのステップサイズを指数関数的に増加させることを提案する。
次に、非正規統計モデルの下でパラメータ推定を解くためのEGDアルゴリズムについて検討する。
EGDアルゴリズムの総計算複雑性は、非正則統計モデルにおけるパラメータ推定の解法として、GDよりも最適で指数関数的に安価である。
論文 参考訳(メタデータ) (2022-05-16T21:36:22Z) - Faster One-Sample Stochastic Conditional Gradient Method for Composite
Convex Minimization [61.26619639722804]
滑らかで非滑らかな項の和として形成される凸有限サム目標を最小化するための条件勾配法(CGM)を提案する。
提案手法は, 平均勾配 (SAG) 推定器を備え, 1回に1回のサンプルしか必要としないが, より高度な分散低減技術と同等の高速収束速度を保証できる。
論文 参考訳(メタデータ) (2022-02-26T19:10:48Z) - Gaussian Process Inference Using Mini-batch Stochastic Gradient Descent:
Convergence Guarantees and Empirical Benefits [21.353189917487512]
勾配降下(SGD)とその変種は、機械学習問題のアルゴリズムとして確立されている。
我々は、最小バッチSGDが全ログ類似損失関数の臨界点に収束することを証明して一歩前進する。
我々の理論的な保証は、核関数が指数的あるいは固有デカイを示すことを前提としている。
論文 参考訳(メタデータ) (2021-11-19T22:28:47Z) - Instability, Computational Efficiency and Statistical Accuracy [101.32305022521024]
我々は,人口レベルでのアルゴリズムの決定論的収束率と,$n$サンプルに基づく経験的対象に適用した場合の(不安定性)の間の相互作用に基づいて,統計的精度を得るフレームワークを開発する。
本稿では,ガウス混合推定,非線形回帰モデル,情報的非応答モデルなど,いくつかの具体的なモデルに対する一般結果の応用について述べる。
論文 参考訳(メタデータ) (2020-05-22T22:30:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。