Fugu-MT 論文翻訳(概要): Enhancing Low-Precision Sampling via Stochastic Gradient Hamiltonian Monte Carlo

論文の概要: Enhancing Low-Precision Sampling via Stochastic Gradient Hamiltonian Monte Carlo

arxiv url: http://arxiv.org/abs/2310.16320v1
Date: Wed, 25 Oct 2023 03:06:48 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-26 17:08:34.996144
Title: Enhancing Low-Precision Sampling via Stochastic Gradient Hamiltonian Monte Carlo
Title（参考訳）: 確率勾配ハミルトニアンモンテカルロによる低精度サンプリングの促進
Authors: Ziyi Wang, Yujie Chen, Qifan Song, Ruqi Zhang
Abstract要約: 深層ニューラルネットワークのトレーニング効率を高めるための、有望な低コスト技術として、低精度トレーニングが登場している。本稿では, グラディエント・ハミルトン・モンテカルロ(SGHMC)による低精度サンプリングについて検討する。
参考スコア（独自算出の注目度）: 21.842830416569427
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Low-precision training has emerged as a promising low-cost technique to enhance the training efficiency of deep neural networks without sacrificing much accuracy. Its Bayesian counterpart can further provide uncertainty quantification and improved generalization accuracy. This paper investigates low-precision sampling via Stochastic Gradient Hamiltonian Monte Carlo (SGHMC) with low-precision and full-precision gradient accumulators for both strongly log-concave and non-log-concave distributions. Theoretically, our results show that, to achieve $\epsilon$-error in the 2-Wasserstein distance for non-log-concave distributions, low-precision SGHMC achieves quadratic improvement ($\widetilde{\mathbf{O}}\left({\epsilon^{-2}{\mu^*}^{-2}\log^2\left({\epsilon^{-1}}\right)}\right)$) compared to the state-of-the-art low-precision sampler, Stochastic Gradient Langevin Dynamics (SGLD) ($\widetilde{\mathbf{O}}\left({{\epsilon}^{-4}{\lambda^{*}}^{-1}\log^5\left({\epsilon^{-1}}\right)}\right)$). Moreover, we prove that low-precision SGHMC is more robust to the quantization error compared to low-precision SGLD due to the robustness of the momentum-based update w.r.t. gradient noise. Empirically, we conduct experiments on synthetic data, and {MNIST, CIFAR-10 \& CIFAR-100} datasets, which validate our theoretical findings. Our study highlights the potential of low-precision SGHMC as an efficient and accurate sampling method for large-scale and resource-limited machine learning.
Abstract（参考訳）: 低精度トレーニングは、多くの精度を犠牲にすることなく、ディープニューラルネットワークのトレーニング効率を高めるための有望な低コスト技術として登場した。そのベイズ語版はさらに不確かさの定量化と一般化精度の向上をもたらすことができる。本稿では, 強対数対数分布と非対数対数分布の両方に対して, 低整定・全整定勾配アキュムレータを有する確率勾配ハミルトンモンテカルロ (sghmc) による低整定サンプリングについて検討する。理論的には、非対数分布に対する2-ワッサーシュタイン距離における$\epsilon$-errorを達成するために、低精度SGHMCは2次改善(\widetilde{\mathbf{O}}\left({\epsilon^{-2}{\mu^*}^{-2}\log^2\left({\epsilon^{-1}}\right)}\right)$)を、最先端の低精度サンプリング器であるStochastic Gradient Langevin Dynamics(SGLD)$(\widetilde{\mathbf{O}}\left({{\epsilon}^{-4}{\lambda^{*}}^{-1}\log^5\left({\epsilon^{-1}}\right)$)と比較した。さらに、低精度SGHMCは、モーメントベースの更新Wr.t.勾配雑音の頑健性のため、低精度SGLDと比較して量子化誤差に対してより堅牢であることを示す。実験では, 合成データと<MNIST, CIFAR-10 \& CIFAR-100}データセットについて実験を行い, 理論的知見を検証した。本研究は,大規模・資源制限型機械学習の効率的かつ正確なサンプリング手法として,低精度SGHMCの可能性を明らかにする。

関連論文リスト

Can SGD Handle Heavy-Tailed Noise? [6.111519084375339]
Gradient Descent (SGD) は大規模最適化のための機械学習プロジェクトであるが、重尾雑音下での理論的挙動は理解されていない。このような悪条件下でSGDが確実に成功できるかどうかを精査する。
論文参考訳（メタデータ） (2025-08-06T20:09:41Z)
Faster Sampling via Stochastic Gradient Proximal Sampler [28.422547264326468]
非log-concave分布からのサンプリングのための近位サンプリング器 (SPS) について検討した。対象分布への収束性は,アルゴリズムの軌道が有界である限り保証可能であることを示す。我々は、Langevin dynamics(SGLD)とLangevin-MALAの2つの実装可能な変種を提供し、SPS-SGLDとSPS-MALAを生み出した。
論文参考訳（メタデータ） (2024-05-27T00:53:18Z)
Robust Stochastic Optimization via Gradient Quantile Clipping [6.2844649973308835]
グラディエントDescent(SGD)のための量子クリッピング戦略を導入する。通常のクリッピングチェーンとして、グラデーション・ニュー・アウトリージを使用します。本稿では,Huberiles を用いたアルゴリズムの実装を提案する。
論文参考訳（メタデータ） (2023-09-29T15:24:48Z)
Low-Precision Stochastic Gradient Langevin Dynamics [70.69923368584588]
本稿では,低精度のグラジエントランゲヴィンダイナミクスを初めて研究し,性能を犠牲にすることなくコストを大幅に削減できることを示した。本研究では,各更新ステップの分散を保存したSGLDの新しい量子化関数を開発する。我々は,低精度のSGLDが,様々なディープラーニングタスクにおいて8ビットしか持たない完全精度のSGLDに匹敵する性能を実現することを実証した。
論文参考訳（メタデータ） (2022-06-20T17:25:41Z)
Differentiable Annealed Importance Sampling and the Perils of Gradient Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文参考訳（メタデータ） (2021-07-21T17:10:14Z)
A New Framework for Variance-Reduced Hamiltonian Monte Carlo [88.84622104944503]
分散還元型ハミルトン・モンテカルロ法 (HMC) の新たなフレームワークを提案し,$L$-smooth および $m$-strongly log-concave 分布からサンプリングする。本研究では,SAGA法やSVRG法をベースとした非バイアス勾配推定器を用いて,バッチサイズを小さくすることで,高い勾配効率が得られることを示す。総合的および実世界のベンチマークデータによる実験結果から、我々の新しいフレームワークは、完全な勾配と勾配HMCアプローチを著しく上回っていることが示された。
論文参考訳（メタデータ） (2021-02-09T02:44:24Z)
Faster Convergence of Stochastic Gradient Langevin Dynamics for Non-Log-Concave Sampling [110.88857917726276]
我々は,非log-concaveとなる分布のクラスからサンプリングするために,勾配ランゲヴィンダイナミクス(SGLD)の新たな収束解析を行う。我々のアプローチの核心は、補助的時間反転型マルコフ連鎖を用いたSGLDのコンダクタンス解析である。
論文参考訳（メタデータ） (2020-10-19T15:23:18Z)
Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文参考訳（メタデータ） (2020-06-04T21:51:21Z)
Sample Complexity of Asynchronous Q-Learning: Sharper Analysis and Variance Reduction [63.41789556777387]
非同期Q-ラーニングはマルコフ決定過程(MDP)の最適行動値関数(またはQ-関数)を学習することを目的としている。 Q-関数の入出力$varepsilon$-正確な推定に必要なサンプルの数は、少なくとも$frac1mu_min (1-gamma)5varepsilon2+ fract_mixmu_min (1-gamma)$の順である。
論文参考訳（メタデータ） (2020-06-04T17:51:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。