論文の概要: Convergence of a L2 regularized Policy Gradient Algorithm for the Multi Armed Bandit
- arxiv url: http://arxiv.org/abs/2402.06388v2
- Date: Sat, 24 Aug 2024 16:39:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 00:16:18.609948
- Title: Convergence of a L2 regularized Policy Gradient Algorithm for the Multi Armed Bandit
- Title(参考訳): マルチアームバンドに対するL2正規化ポリシー勾配アルゴリズムの収束性
- Authors: Stefana Anita, Gabriel Turinici,
- Abstract要約: 一方のマルチアームバンド(MAB)と他方のポリシー勾配アプローチは、強化学習の最もよく使われるフレームワークである。
この研究において、$L2$正規化項が'softmax'パラメトリゼーションと共同で存在する状況に対するそのような手順の収束について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Although Multi Armed Bandit (MAB) on one hand and the policy gradient approach on the other hand are among the most used frameworks of Reinforcement Learning, the theoretical properties of the policy gradient algorithm used for MAB have not been given enough attention. We investigate in this work the convergence of such a procedure for the situation when a $L2$ regularization term is present jointly with the 'softmax' parametrization. We prove convergence under appropriate technical hypotheses and test numerically the procedure including situations beyond the theoretical setting. The tests show that a time dependent regularized procedure can improve over the canonical approach especially when the initial guess is far from the solution.
- Abstract(参考訳): 一方のマルチアームバンド(MAB)と他方のポリシー勾配アプローチは強化学習の最もよく使われるフレームワークであるが、MABで使用されるポリシー勾配アルゴリズムの理論的性質は十分に注目されていない。
本研究では,L2$正規化項が 'softmax' パラメトリゼーションと共同で存在する状況に対する,そのような手順の収束について検討する。
我々は、適切な技術的仮説の下で収束を証明し、理論的な設定を超えた状況を含む手順を数値的に検証する。
実験の結果,初期推定値が解から遠い場合,時間依存正規化手順が標準手法よりも改善できることが示唆された。
関連論文リスト
- Flattened one-bit stochastic gradient descent: compressed distributed optimization with controlled variance [55.01966743652196]
パラメータ・サーバ・フレームワークにおける圧縮勾配通信を用いた分散勾配降下(SGD)のための新しいアルゴリズムを提案する。
平坦な1ビット勾配勾配勾配法(FO-SGD)は2つの単純なアルゴリズムの考え方に依存している。
論文 参考訳(メタデータ) (2024-05-17T21:17:27Z) - Faster Convergence of Stochastic Accelerated Gradient Descent under Interpolation [51.248784084461334]
我々はNesterov加速度アンダーホ条件の一般化版に対する新しい収束率を証明した。
本分析により, 従来の研究に比べて, 強い成長定数への依存度を$$$から$sqrt$に下げることができた。
論文 参考訳(メタデータ) (2024-04-03T00:41:19Z) - Faster One-Sample Stochastic Conditional Gradient Method for Composite
Convex Minimization [61.26619639722804]
滑らかで非滑らかな項の和として形成される凸有限サム目標を最小化するための条件勾配法(CGM)を提案する。
提案手法は, 平均勾配 (SAG) 推定器を備え, 1回に1回のサンプルしか必要としないが, より高度な分散低減技術と同等の高速収束速度を保証できる。
論文 参考訳(メタデータ) (2022-02-26T19:10:48Z) - PAGE-PG: A Simple and Loopless Variance-Reduced Policy Gradient Method
with Probabilistic Gradient Estimation [6.063525456640462]
本稿では,2種類の更新間の確率的スイッチに基づくループレス分散還元ポリシー勾配法を提案する。
提案手法は, 平均サンプル密度を$epsilon$-stationary に到達させるため, $mathcalOleft(epsilon-3 right)$平均サンプルの複雑性を満足することを示す。
古典的制御タスクにおける本手法の競合性能を数値評価により確認する。
論文 参考訳(メタデータ) (2022-02-01T10:10:49Z) - Minibatch vs Local SGD with Shuffling: Tight Convergence Bounds and
Beyond [63.59034509960994]
シャッフルに基づく変種(ミニバッチと局所ランダムリシャッフル)について検討する。
ポリアック・ロジャシエヴィチ条件を満たす滑らかな函数に対して、これらのシャッフル型不変量(英語版)(shuffling-based variants)がそれらの置換式よりも早く収束することを示す収束境界を得る。
我々は, 同期シャッフル法と呼ばれるアルゴリズムの修正を提案し, ほぼ均一な条件下では, 下界よりも収束速度が速くなった。
論文 参考訳(メタデータ) (2021-10-20T02:25:25Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z) - The convergence of the Stochastic Gradient Descent (SGD) : a
self-contained proof [0.0]
SGD(Gradient Descent)の自己完備な収束の証明。
ここでは、自己完結した方法でグラディエント輝き(SGD)の収束の証明を与える。
論文 参考訳(メタデータ) (2021-03-26T09:42:58Z) - Deep Bayesian Quadrature Policy Optimization [100.81242753620597]
ディープベイズ二次政策勾配 (Deep Bayesian quadrature Policy gradient, DBQPG) は、政策勾配推定のためのベイズ二次政策の高次元一般化である。
政策勾配法では,DBQPGがモンテカルロ推定を代用できることを示すとともに,一連の連続制御ベンチマーク上での有効性を示す。
論文 参考訳(メタデータ) (2020-06-28T15:44:47Z) - Stochastic Recursive Momentum for Policy Gradient Methods [28.277961340108313]
STOchastic Recursive Momentum for Policy Gradient (Storm-PG) という新しいアルゴリズムを提案する。
Storm-PG は STORM-PG のサンプルバウンドで、ポリシー勾配アルゴリズムの最もよく知られた収束率と一致する。
数値実験では、比較ポリシー勾配アルゴリズムよりもアルゴリズムの方が優れていることが示されている。
論文 参考訳(メタデータ) (2020-03-09T17:59:03Z) - Sampling and Update Frequencies in Proximal Variance-Reduced Stochastic
Gradient Methods [0.0]
本稿では, 一般近似分散還元勾配法を提案し, 強い凸性仮定の下で解析する。
このアルゴリズムの特別な例は、SAGA、L-SVRGとその近位変種である。
論文 参考訳(メタデータ) (2020-02-13T14:56:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。