論文の概要: On the Convergence Rate of the Stochastic Gradient Descent (SGD) and
application to a modified policy gradient for the Multi Armed Bandit
- arxiv url: http://arxiv.org/abs/2402.06388v1
- Date: Fri, 9 Feb 2024 13:10:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 16:52:25.758173
- Title: On the Convergence Rate of the Stochastic Gradient Descent (SGD) and
application to a modified policy gradient for the Multi Armed Bandit
- Title(参考訳): 確率勾配Descence (SGD) の収束速度とマルチアームバンドに対する修正ポリシー勾配への応用について
- Authors: Stefana Anita and Gabriel Turinici
- Abstract要約: 本稿では,学習速度が逆時間減衰のスケジュールに従えば,SGDの収束率を自己完結した証明を示す。
次に、L2$正規化を施した修正型勾配ポリシー(MAB)の収束に適用する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present a self-contained proof of the convergence rate of the Stochastic
Gradient Descent (SGD) when the learning rate follows an inverse time decays
schedule; we next apply the results to the convergence of a modified form of
policy gradient Multi-Armed Bandit (MAB) with $L2$ regularization.
- Abstract(参考訳): 本稿では,確率的勾配降下(sgd)の収束率について,逆時間減衰スケジュールに従う場合の自己完結的な証明を示す。
関連論文リスト
- Faster One-Sample Stochastic Conditional Gradient Method for Composite
Convex Minimization [61.26619639722804]
滑らかで非滑らかな項の和として形成される凸有限サム目標を最小化するための条件勾配法(CGM)を提案する。
提案手法は, 平均勾配 (SAG) 推定器を備え, 1回に1回のサンプルしか必要としないが, より高度な分散低減技術と同等の高速収束速度を保証できる。
論文 参考訳(メタデータ) (2022-02-26T19:10:48Z) - PAGE-PG: A Simple and Loopless Variance-Reduced Policy Gradient Method
with Probabilistic Gradient Estimation [6.063525456640462]
本稿では,2種類の更新間の確率的スイッチに基づくループレス分散還元ポリシー勾配法を提案する。
提案手法は, 平均サンプル密度を$epsilon$-stationary に到達させるため, $mathcalOleft(epsilon-3 right)$平均サンプルの複雑性を満足することを示す。
古典的制御タスクにおける本手法の競合性能を数値評価により確認する。
論文 参考訳(メタデータ) (2022-02-01T10:10:49Z) - Improving Differentially Private SGD via Randomly Sparsified Gradients [31.295035726077366]
ディファレンシャル・プライベート・グラデーション・オブザーバ(DP-SGD)は、厳密に定義されたプライバシー境界圧縮を提供するため、ディープラーニングにおいて広く採用されている。
本稿では,通信コストを向上し,プライバシ境界圧縮を強化するためのRSを提案する。
論文 参考訳(メタデータ) (2021-12-01T21:43:34Z) - Minibatch vs Local SGD with Shuffling: Tight Convergence Bounds and
Beyond [63.59034509960994]
シャッフルに基づく変種(ミニバッチと局所ランダムリシャッフル)について検討する。
ポリアック・ロジャシエヴィチ条件を満たす滑らかな函数に対して、これらのシャッフル型不変量(英語版)(shuffling-based variants)がそれらの置換式よりも早く収束することを示す収束境界を得る。
我々は, 同期シャッフル法と呼ばれるアルゴリズムの修正を提案し, ほぼ均一な条件下では, 下界よりも収束速度が速くなった。
論文 参考訳(メタデータ) (2021-10-20T02:25:25Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z) - The convergence of the Stochastic Gradient Descent (SGD) : a
self-contained proof [0.0]
SGD(Gradient Descent)の自己完備な収束の証明。
ここでは、自己完結した方法でグラディエント輝き(SGD)の収束の証明を与える。
論文 参考訳(メタデータ) (2021-03-26T09:42:58Z) - A Study of Gradient Variance in Deep Learning [56.437755740715396]
階層化サンプリングによる平均ミニバッチ勾配のばらつきを最小化する手法であるグラディエントクラスタリングを導入する。
我々は、一般的なディープラーニングベンチマークの勾配分散を測定し、一般的な仮定に反して、トレーニング中に勾配分散が増加することを観察する。
論文 参考訳(メタデータ) (2020-07-09T03:23:10Z) - Deep Bayesian Quadrature Policy Optimization [100.81242753620597]
ディープベイズ二次政策勾配 (Deep Bayesian quadrature Policy gradient, DBQPG) は、政策勾配推定のためのベイズ二次政策の高次元一般化である。
政策勾配法では,DBQPGがモンテカルロ推定を代用できることを示すとともに,一連の連続制御ベンチマーク上での有効性を示す。
論文 参考訳(メタデータ) (2020-06-28T15:44:47Z) - Stochastic Recursive Momentum for Policy Gradient Methods [28.277961340108313]
STOchastic Recursive Momentum for Policy Gradient (Storm-PG) という新しいアルゴリズムを提案する。
Storm-PG は STORM-PG のサンプルバウンドで、ポリシー勾配アルゴリズムの最もよく知られた収束率と一致する。
数値実験では、比較ポリシー勾配アルゴリズムよりもアルゴリズムの方が優れていることが示されている。
論文 参考訳(メタデータ) (2020-03-09T17:59:03Z) - Sampling and Update Frequencies in Proximal Variance-Reduced Stochastic
Gradient Methods [0.0]
本稿では, 一般近似分散還元勾配法を提案し, 強い凸性仮定の下で解析する。
このアルゴリズムの特別な例は、SAGA、L-SVRGとその近位変種である。
論文 参考訳(メタデータ) (2020-02-13T14:56:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。