論文の概要: Low-Precision Stochastic Gradient Langevin Dynamics
- arxiv url: http://arxiv.org/abs/2206.09909v1
- Date: Mon, 20 Jun 2022 17:25:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 14:22:32.405921
- Title: Low-Precision Stochastic Gradient Langevin Dynamics
- Title(参考訳): 低精度確率的勾配ランジュバンダイナミクス
- Authors: Ruqi Zhang, Andrew Gordon Wilson, Christopher De Sa
- Abstract要約: 本稿では,低精度のグラジエントランゲヴィンダイナミクスを初めて研究し,性能を犠牲にすることなくコストを大幅に削減できることを示した。
本研究では,各更新ステップの分散を保存したSGLDの新しい量子化関数を開発する。
我々は,低精度のSGLDが,様々なディープラーニングタスクにおいて8ビットしか持たない完全精度のSGLDに匹敵する性能を実現することを実証した。
- 参考スコア(独自算出の注目度): 70.69923368584588
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While low-precision optimization has been widely used to accelerate deep
learning, low-precision sampling remains largely unexplored. As a consequence,
sampling is simply infeasible in many large-scale scenarios, despite providing
remarkable benefits to generalization and uncertainty estimation for neural
networks. In this paper, we provide the first study of low-precision Stochastic
Gradient Langevin Dynamics (SGLD), showing that its costs can be significantly
reduced without sacrificing performance, due to its intrinsic ability to handle
system noise. We prove that the convergence of low-precision SGLD with
full-precision gradient accumulators is less affected by the quantization error
than its SGD counterpart in the strongly convex setting. To further enable
low-precision gradient accumulators, we develop a new quantization function for
SGLD that preserves the variance in each update step. We demonstrate that
low-precision SGLD achieves comparable performance to full-precision SGLD with
only 8 bits on a variety of deep learning tasks.
- Abstract(参考訳): 低精度の最適化はディープラーニングの高速化に広く用いられているが、低精度のサンプリングはほとんど探索されていない。
その結果、ニューラルネットワークの一般化と不確実性推定に顕著な利点があるにもかかわらず、サンプリングは多くの大規模シナリオでは単に実現不可能である。
本稿では,SGLD(Stochastic Gradient Langevin Dynamics)の低精度化に関する最初の研究を行い,本質的なシステムノイズ処理能力のため,性能を犠牲にすることなくコストを大幅に削減できることを示した。
完全精度勾配アキュマレータによる低精度SGLDの収束は、強い凸条件下でのSGDよりも量子化誤差の影響が小さいことを証明した。
さらに,低精度勾配アキュムレータを実現するために,各更新ステップのばらつきを保存するSGLDの新しい量子化関数を開発した。
我々は,低精度のSGLDが,様々なディープラーニングタスクにおいて8ビットしか持たない完全精度のSGLDに匹敵する性能を実現することを示した。
関連論文リスト
- The Optimality of (Accelerated) SGD for High-Dimensional Quadratic Optimization [4.7256945641654164]
勾配降下(SGD)は機械学習、特にニューラルネットワークトレーニングにおいて広く使われているアルゴリズムである。
正準2次最適化や線形回帰のSGDに関する最近の研究は、適切な高次元設定で十分に一般化できることを示している。
本稿では,ステップサイズスケジュールと運動量指数の2つの基本成分を持つSGDについて検討する。
論文 参考訳(メタデータ) (2024-09-15T14:20:03Z) - Langevin Dynamics: A Unified Perspective on Optimization via Lyapunov Potentials [15.718093624695552]
我々は、リアプノフポテンシャルと最適化に基づいて、グラディエント・ランゲヴィン・ダイナミクス(SGLD)のグローバル・ミニマへの収束を分析する。
2) SGLD に対する最初の有限勾配複雑性、3) 連続時間ランゲヴィンダイナミクスが最適化に成功するなら、次に離散時間 SGLD が穏やかな正則性仮定の下で成功することを証明する。
論文 参考訳(メタデータ) (2024-07-05T05:34:10Z) - Enhancing Low-Precision Sampling via Stochastic Gradient Hamiltonian Monte Carlo [19.99475224693552]
深層ニューラルネットワークのトレーニング効率を高めるための、有望な低コスト技術として、低精度トレーニングが登場している。
本稿では, グラディエント・ハミルトン・モンテカルロ(SGHMC)による低精度サンプリングについて検討する。
論文 参考訳(メタデータ) (2023-10-25T03:06:48Z) - The Marginal Value of Momentum for Small Learning Rate SGD [20.606430391298815]
モーメントは、勾配雑音のない強い凸条件下での勾配降下の収束を加速することが知られている。
実験により、最適学習率があまり大きくない実践訓練において、運動量には最適化と一般化の両方の利点があることがわかった。
論文 参考訳(メタデータ) (2023-07-27T21:01:26Z) - Convergence of mean-field Langevin dynamics: Time and space
discretization, stochastic gradient, and variance reduction [49.66486092259376]
平均場ランゲヴィンダイナミクス(英: mean-field Langevin dynamics、MFLD)は、分布依存のドリフトを含むランゲヴィン力学の非線形一般化である。
近年の研究では、MFLDは測度空間で機能するエントロピー規則化された凸関数を地球規模で最小化することが示されている。
有限粒子近似,時間分散,勾配近似による誤差を考慮し,MFLDのカオスの均一時間伝播を示す枠組みを提供する。
論文 参考訳(メタデータ) (2023-06-12T16:28:11Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - Stochastic Gradient Langevin Dynamics with Variance Reduction [6.243995448840211]
勾配ランゲヴィンダイナミクス(SGLD)は、グローバル最適化研究者の注目を集めている。
本稿では,加速度特性の低減による非目的関数の改善を実証する。
論文 参考訳(メタデータ) (2021-02-12T20:22:56Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - On the Generalization of Stochastic Gradient Descent with Momentum [84.54924994010703]
運動量に基づく勾配降下(SGD)の加速変種は、機械学習モデルを訓練する際に広く用いられる。
まず,標準重球運動量(SGDM)を持つSGDの複数のエポックに対する安定性ギャップが非有界となる凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対しては、修正モーメントベースの更新規則、すなわち、幅広いステップサイズで初期運動量(SGDEM)を解析する。
論文 参考訳(メタデータ) (2018-09-12T17:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。