論文の概要: Diagonalisation SGD: Fast & Convergent SGD for Non-Differentiable Models
via Reparameterisation and Smoothing
- arxiv url: http://arxiv.org/abs/2402.11752v1
- Date: Mon, 19 Feb 2024 00:43:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 19:09:16.037799
- Title: Diagonalisation SGD: Fast & Convergent SGD for Non-Differentiable Models
via Reparameterisation and Smoothing
- Title(参考訳): 対角化SGD:再パラメータ化と平滑化による非微分モデルに対する高速収束SGD
- Authors: Dominik Wagner, Basim Khajwal, C.-H. Luke Ong
- Abstract要約: 微分不可能な関数を断片的に定義するための単純なフレームワークを導入し,スムース化を得るための体系的なアプローチを提案する。
我々の主な貢献は SGD の新たな変種 Diagonalisation Gradient Descent であり、滑らかな近似の精度を徐々に向上させる。
我々のアプローチは単純で高速で安定であり、作業正規化分散の桁数削減を実現している。
- 参考スコア(独自算出の注目度): 1.6114012813668932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is well-known that the reparameterisation gradient estimator, which
exhibits low variance in practice, is biased for non-differentiable models.
This may compromise correctness of gradient-based optimisation methods such as
stochastic gradient descent (SGD). We introduce a simple syntactic framework to
define non-differentiable functions piecewisely and present a systematic
approach to obtain smoothings for which the reparameterisation gradient
estimator is unbiased. Our main contribution is a novel variant of SGD,
Diagonalisation Stochastic Gradient Descent, which progressively enhances the
accuracy of the smoothed approximation during optimisation, and we prove
convergence to stationary points of the unsmoothed (original) objective. Our
empirical evaluation reveals benefits over the state of the art: our approach
is simple, fast, stable and attains orders of magnitude reduction in
work-normalised variance.
- Abstract(参考訳): 低分散を示す再パラメータ勾配推定器が非微分可能モデルに対して偏りがあることはよく知られている。
これは、確率勾配降下(SGD)のような勾配に基づく最適化手法の正しさを損なう可能性がある。
本稿では,非微分可能関数を区分的に定義するための単純な構文フレームワークを導入し,再パラメータ勾配推定器が偏りのない平滑化を得るための体系的アプローチを提案する。
我々の主な貢献は、SGDの新しい変種である対角化確率勾配(Diagonalisation Stochastic Gradient Descent)であり、最適化中の滑らかな近似の精度を徐々に向上させ、非滑らか(元)目的の定常点への収束を証明している。
私たちのアプローチはシンプルで、高速で、安定しており、仕事の正規化された分散の桁違いの縮小を実現しています。
関連論文リスト
- Directional Smoothness and Gradient Methods: Convergence and Adaptivity [16.779513676120096]
我々は、最適化の経路に沿った目的の条件付けに依存する勾配降下に対する新しい準最適境界を開発する。
我々の証明の鍵となるのは方向の滑らかさであり、これは、目的の上のバウンドを開発するために使用する勾配変動の尺度である。
我々は,方向の滑らかさの知識を使わずとも,ポリアクのステップサイズと正規化GDが高速で経路依存の速度を得ることを示した。
論文 参考訳(メタデータ) (2024-03-06T22:24:05Z) - Non-asymptotic Analysis of Biased Adaptive Stochastic Approximation [0.8192907805418583]
偏りのある勾配は滑らかな非函数に対する臨界点に収束することを示す。
適切なチューニングを行うことで,バイアスの効果を低減できることを示す。
論文 参考訳(メタデータ) (2024-02-05T10:17:36Z) - Adaptive Step Sizes for Preconditioned Stochastic Gradient Descent [0.3831327965422187]
本稿では,勾配降下(SGD)における適応ステップサイズに対する新しいアプローチを提案する。
我々は、勾配に対するリプシッツ定数と探索方向の局所的分散の概念という、数値的にトレース可能な量を用いる。
論文 参考訳(メタデータ) (2023-11-28T17:03:56Z) - Fast and Correct Gradient-Based Optimisation for Probabilistic
Programming via Smoothing [0.0]
本稿では,後部推論を最適化問題とする変分推論の基礎について検討する。
私たちは、測定可能とスムーズな(近似的な)値セマンティクスの両方を言語に与えました。
提案手法は鍵となる競合相手と同様の収束性を持つが,よりシンプルで,高速で,作業正規化分散の桁違いの低減が達成できることを示す。
論文 参考訳(メタデータ) (2023-01-09T15:12:45Z) - The Power of Adaptivity in SGD: Self-Tuning Step Sizes with Unbounded
Gradients and Affine Variance [46.15915820243487]
AdaGrad-Normは$mathcalOleftのオーダー最適収束を示す。
AdaGrad-Normは$mathcalOleftのオーダー最適収束を示す。
論文 参考訳(メタデータ) (2022-02-11T17:37:54Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z) - Stochastic Optimization with Heavy-Tailed Noise via Accelerated Gradient
Clipping [69.9674326582747]
そこで本研究では,重み付き分散雑音を用いたスムーズな凸最適化のための,クリップ付きSSTMと呼ばれる新しい1次高速化手法を提案する。
この場合、最先端の結果を上回る新たな複雑さが証明される。
本研究は,SGDにおいて,ノイズに対する光細かな仮定を伴わずにクリッピングを施した最初の非自明な高確率複雑性境界を導出した。
論文 参考訳(メタデータ) (2020-05-21T17:05:27Z) - On the Convergence of Adaptive Gradient Methods for Nonconvex Optimization [80.03647903934723]
我々は、勾配収束法を期待する適応勾配法を証明した。
解析では、非理解勾配境界の最適化において、より適応的な勾配法に光を当てた。
論文 参考訳(メタデータ) (2018-08-16T20:25:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。