論文の概要: Enhancing Low-Precision Sampling via Stochastic Gradient Hamiltonian Monte Carlo
- arxiv url: http://arxiv.org/abs/2310.16320v2
- Date: Sun, 14 Jul 2024 21:02:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 02:54:11.589437
- Title: Enhancing Low-Precision Sampling via Stochastic Gradient Hamiltonian Monte Carlo
- Title(参考訳): 確率勾配ハミルトニアンモンテカルロによる低精度サンプリング
- Authors: Ziyi Wang, Yujie Chen, Qifan Song, Ruqi Zhang,
- Abstract要約: 深層ニューラルネットワークのトレーニング効率を高めるための、有望な低コスト技術として、低精度トレーニングが登場している。
本稿では, グラディエント・ハミルトン・モンテカルロ(SGHMC)による低精度サンプリングについて検討する。
- 参考スコア(独自算出の注目度): 19.99475224693552
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Low-precision training has emerged as a promising low-cost technique to enhance the training efficiency of deep neural networks without sacrificing much accuracy. Its Bayesian counterpart can further provide uncertainty quantification and improved generalization accuracy. This paper investigates low-precision sampling via Stochastic Gradient Hamiltonian Monte Carlo (SGHMC) with low-precision and full-precision gradient accumulators for both strongly log-concave and non-log-concave distributions. Theoretically, our results show that, to achieve $\epsilon$-error in the 2-Wasserstein distance for non-log-concave distributions, low-precision SGHMC achieves quadratic improvement ($\widetilde{\mathbf{O}}\left({\epsilon^{-2}{\mu^*}^{-2}\log^2\left({\epsilon^{-1}}\right)}\right)$) compared to the state-of-the-art low-precision sampler, Stochastic Gradient Langevin Dynamics (SGLD) ($\widetilde{\mathbf{O}}\left({{\epsilon}^{-4}{\lambda^{*}}^{-1}\log^5\left({\epsilon^{-1}}\right)}\right)$). Moreover, we prove that low-precision SGHMC is more robust to the quantization error compared to low-precision SGLD due to the robustness of the momentum-based update w.r.t. gradient noise. Empirically, we conduct experiments on synthetic data, and {MNIST, CIFAR-10 \& CIFAR-100} datasets, which validate our theoretical findings. Our study highlights the potential of low-precision SGHMC as an efficient and accurate sampling method for large-scale and resource-limited machine learning.
- Abstract(参考訳): 高い精度を犠牲にすることなく、ディープニューラルネットワークのトレーニング効率を高めるための、有望な低コスト技術として、低精度トレーニングが登場した。
そのベイズ対応は、さらに不確実な定量化と一般化の精度を向上させることができる。
本稿では,SGHMC(Stochastic Gradient Hamiltonian Monte Carlo)を用いた低精度サンプリングについて検討する。
理論的には、非対数分布に対する2-ワッサーシュタイン距離における$\epsilon$-errorを達成するために、低精度SGHMCは2次改善(\widetilde{\mathbf{O}}\left({\epsilon^{-2}{\mu^*}^{-2}\log^2\left({\epsilon^{-1}}\right)}\right)$)を、最先端の低精度サンプリング器であるStochastic Gradient Langevin Dynamics(SGLD)$(\widetilde{\mathbf{O}}\left({{\epsilon}^{-4}{\lambda^{*}}^{-1}\log^5\left({\epsilon^{-1}}\right)$)と比較した。
さらに、低精度SGHMCは、モーメントベースの更新Wr.t.勾配雑音の頑健性のため、低精度SGLDと比較して量子化誤差に対してより堅牢であることを示す。
実験では, 合成データと<MNIST, CIFAR-10 \& CIFAR-100}データセットについて実験を行い, 理論的知見を検証した。
本研究は,大規模・資源制限型機械学習の効率的かつ正確なサンプリング手法として,低精度SGHMCの可能性を明らかにする。
関連論文リスト
- Faster Sampling via Stochastic Gradient Proximal Sampler [28.422547264326468]
非log-concave分布からのサンプリングのための近位サンプリング器 (SPS) について検討した。
対象分布への収束性は,アルゴリズムの軌道が有界である限り保証可能であることを示す。
我々は、Langevin dynamics(SGLD)とLangevin-MALAの2つの実装可能な変種を提供し、SPS-SGLDとSPS-MALAを生み出した。
論文 参考訳(メタデータ) (2024-05-27T00:53:18Z) - Robust Stochastic Optimization via Gradient Quantile Clipping [6.2844649973308835]
グラディエントDescent(SGD)のための量子クリッピング戦略を導入する。
通常のクリッピングチェーンとして、グラデーション・ニュー・アウトリージを使用します。
本稿では,Huberiles を用いたアルゴリズムの実装を提案する。
論文 参考訳(メタデータ) (2023-09-29T15:24:48Z) - Low-Precision Stochastic Gradient Langevin Dynamics [70.69923368584588]
本稿では,低精度のグラジエントランゲヴィンダイナミクスを初めて研究し,性能を犠牲にすることなくコストを大幅に削減できることを示した。
本研究では,各更新ステップの分散を保存したSGLDの新しい量子化関数を開発する。
我々は,低精度のSGLDが,様々なディープラーニングタスクにおいて8ビットしか持たない完全精度のSGLDに匹敵する性能を実現することを実証した。
論文 参考訳(メタデータ) (2022-06-20T17:25:41Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - A New Framework for Variance-Reduced Hamiltonian Monte Carlo [88.84622104944503]
分散還元型ハミルトン・モンテカルロ法 (HMC) の新たなフレームワークを提案し,$L$-smooth および $m$-strongly log-concave 分布からサンプリングする。
本研究では,SAGA法やSVRG法をベースとした非バイアス勾配推定器を用いて,バッチサイズを小さくすることで,高い勾配効率が得られることを示す。
総合的および実世界のベンチマークデータによる実験結果から、我々の新しいフレームワークは、完全な勾配と勾配HMCアプローチを著しく上回っていることが示された。
論文 参考訳(メタデータ) (2021-02-09T02:44:24Z) - Faster Convergence of Stochastic Gradient Langevin Dynamics for
Non-Log-Concave Sampling [110.88857917726276]
我々は,非log-concaveとなる分布のクラスからサンプリングするために,勾配ランゲヴィンダイナミクス(SGLD)の新たな収束解析を行う。
我々のアプローチの核心は、補助的時間反転型マルコフ連鎖を用いたSGLDのコンダクタンス解析である。
論文 参考訳(メタデータ) (2020-10-19T15:23:18Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z) - Sample Complexity of Asynchronous Q-Learning: Sharper Analysis and
Variance Reduction [63.41789556777387]
非同期Q-ラーニングはマルコフ決定過程(MDP)の最適行動値関数(またはQ-関数)を学習することを目的としている。
Q-関数の入出力$varepsilon$-正確な推定に必要なサンプルの数は、少なくとも$frac1mu_min (1-gamma)5varepsilon2+ fract_mixmu_min (1-gamma)$の順である。
論文 参考訳(メタデータ) (2020-06-04T17:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。