論文の概要: Non-asymptotic Analysis of Biased Adaptive Stochastic Approximation
- arxiv url: http://arxiv.org/abs/2402.02857v1
- Date: Mon, 5 Feb 2024 10:17:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 16:58:46.933346
- Title: Non-asymptotic Analysis of Biased Adaptive Stochastic Approximation
- Title(参考訳): バイアス適応確率近似の非漸近解析
- Authors: Sobihan Surendran (LPSM (UMR\_8001)), Antoine Godichon-Baggioni (LPSM
(UMR\_8001)), Adeline Fermanian, Sylvain Le Corff (LPSM (UMR\_8001))
- Abstract要約: 偏りのある勾配は滑らかな非函数に対する臨界点に収束することを示す。
適切なチューニングを行うことで,バイアスの効果を低減できることを示す。
- 参考スコア(独自算出の注目度): 0.8192907805418583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic Gradient Descent (SGD) with adaptive steps is now widely used for
training deep neural networks. Most theoretical results assume access to
unbiased gradient estimators, which is not the case in several recent deep
learning and reinforcement learning applications that use Monte Carlo methods.
This paper provides a comprehensive non-asymptotic analysis of SGD with biased
gradients and adaptive steps for convex and non-convex smooth functions. Our
study incorporates time-dependent bias and emphasizes the importance of
controlling the bias and Mean Squared Error (MSE) of the gradient estimator. In
particular, we establish that Adagrad and RMSProp with biased gradients
converge to critical points for smooth non-convex functions at a rate similar
to existing results in the literature for the unbiased case. Finally, we
provide experimental results using Variational Autoenconders (VAE) that
illustrate our convergence results and show how the effect of bias can be
reduced by appropriate hyperparameter tuning.
- Abstract(参考訳): 適応ステップ付き確率勾配降下(sgd)は現在、ディープニューラルネットワークのトレーニングに広く使われている。
ほとんどの理論的結果は、不偏勾配推定器へのアクセスを前提としており、モンテカルロ法を用いた最近の深層学習および強化学習の応用ではそうではない。
本稿では,SGDの偏り勾配と凸・非凸スムーズ関数の適応ステップを包括的に非漸近解析する。
本研究は、時間依存バイアスを取り入れ、勾配推定器のバイアスと平均正方形誤差(MSE)を制御することの重要性を強調する。
特に、バイアスのある勾配を持つAdagrad と RMSProp が、非凸関数の滑らかな臨界点に、未バイアスの場合の文献における既存の結果に類似した速度で収束することが確認される。
最後に,我々の収束結果を示す変分オートエンコンダ(vae)を用いた実験を行い,適切なハイパーパラメータチューニングによりバイアスの影響を低減できることを示す。
関連論文リスト
- Distributed Momentum Methods Under Biased Gradient Estimations [6.046591474843391]
分散勾配法は、複数のノードに分散したデータを含む大規模な機械学習問題の解決において、注目を集めている。
しかし、多くの分散機械学習アプリケーションでは、偏りのない勾配推定値を得るのは難しい。
本稿では,偏差勾配推定の下での分散運動量法における非同相収束境界を確立する。
論文 参考訳(メタデータ) (2024-02-29T18:03:03Z) - Diagonalisation SGD: Fast & Convergent SGD for Non-Differentiable Models
via Reparameterisation and Smoothing [1.6114012813668932]
微分不可能な関数を断片的に定義するための単純なフレームワークを導入し,スムース化を得るための体系的なアプローチを提案する。
我々の主な貢献は SGD の新たな変種 Diagonalisation Gradient Descent であり、滑らかな近似の精度を徐々に向上させる。
我々のアプローチは単純で高速で安定であり、作業正規化分散の桁数削減を実現している。
論文 参考訳(メタデータ) (2024-02-19T00:43:22Z) - Model-Based Reparameterization Policy Gradient Methods: Theory and
Practical Algorithms [88.74308282658133]
Reization (RP) Policy Gradient Methods (PGM) は、ロボット工学やコンピュータグラフィックスにおける連続的な制御タスクに広く採用されている。
近年の研究では、長期強化学習問題に適用した場合、モデルベースRP PGMはカオス的かつ非滑らかな最適化環境を経験する可能性があることが示されている。
本稿では,長期モデルアンロールによる爆発的分散問題を緩和するスペクトル正規化法を提案する。
論文 参考訳(メタデータ) (2023-10-30T18:43:21Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - Efficient Semi-Implicit Variational Inference [65.07058307271329]
効率的でスケーラブルな半単純外挿 (SIVI) を提案する。
本手法はSIVIの証拠を低勾配値の厳密な推測にマッピングする。
論文 参考訳(メタデータ) (2021-01-15T11:39:09Z) - On the Convergence of SGD with Biased Gradients [28.400751656818215]
偏り勾配法 (SGD) の導出領域を解析し, 個々の更新を圧縮によって劣化させる。
偏差精度と収束率の影響の程度を定量化する。
論文 参考訳(メタデータ) (2020-07-31T19:37:59Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z) - Non-asymptotic bounds for stochastic optimization with biased noisy
gradient oracles [8.655294504286635]
関数の測定値が推定誤差を持つ設定を捉えるために,バイアス付き勾配オラクルを導入する。
提案するオラクルは,例えば,独立分散シミュレーションと同一分散シミュレーションのバッチによるリスク計測推定の実践的な状況にある。
論文 参考訳(メタデータ) (2020-02-26T12:53:04Z) - Biased Stochastic First-Order Methods for Conditional Stochastic Optimization and Applications in Meta Learning [24.12941820827126]
条件最適化問題に対するバイアス勾配勾配勾配(BSGD)を提案する。
下界解析により,BSGDは一般凸対象の非目的に対して改善できないことが示された。
この特別な設定のために、下界にマッチするバイアスドスパイダーブースト (BSpiderBoost) と呼ばれる加速アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-25T10:57:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。