論文の概要: Convergence of a L2 regularized Policy Gradient Algorithm for the Multi Armed Bandit
- arxiv url: http://arxiv.org/abs/2402.06388v2
- Date: Sat, 24 Aug 2024 16:39:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 00:16:18.609948
- Title: Convergence of a L2 regularized Policy Gradient Algorithm for the Multi Armed Bandit
- Title(参考訳): マルチアームバンドに対するL2正規化ポリシー勾配アルゴリズムの収束性
- Authors: Stefana Anita, Gabriel Turinici,
- Abstract要約: 一方のマルチアームバンド(MAB)と他方のポリシー勾配アプローチは、強化学習の最もよく使われるフレームワークである。
この研究において、$L2$正規化項が'softmax'パラメトリゼーションと共同で存在する状況に対するそのような手順の収束について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Although Multi Armed Bandit (MAB) on one hand and the policy gradient approach on the other hand are among the most used frameworks of Reinforcement Learning, the theoretical properties of the policy gradient algorithm used for MAB have not been given enough attention. We investigate in this work the convergence of such a procedure for the situation when a $L2$ regularization term is present jointly with the 'softmax' parametrization. We prove convergence under appropriate technical hypotheses and test numerically the procedure including situations beyond the theoretical setting. The tests show that a time dependent regularized procedure can improve over the canonical approach especially when the initial guess is far from the solution.
- Abstract(参考訳): 一方のマルチアームバンド(MAB)と他方のポリシー勾配アプローチは強化学習の最もよく使われるフレームワークであるが、MABで使用されるポリシー勾配アルゴリズムの理論的性質は十分に注目されていない。
本研究では,L2$正規化項が 'softmax' パラメトリゼーションと共同で存在する状況に対する,そのような手順の収束について検討する。
我々は、適切な技術的仮説の下で収束を証明し、理論的な設定を超えた状況を含む手順を数値的に検証する。
実験の結果,初期推定値が解から遠い場合,時間依存正規化手順が標準手法よりも改善できることが示唆された。
関連論文リスト
- Dual Approximation Policy Optimization [20.787309027373208]
本稿では、一般関数近似をポリシーミラー降下法に組み込んだフレームワークであるDual Approximation Policy Optimization (DAPO)を提案する。
この双対性フレームワークは理論的および実践的両方の意味を持つ。
論文 参考訳(メタデータ) (2024-10-02T05:49:11Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Policy Optimization over General State and Action Spaces [3.722665817361884]
一般的な状態や行動空間に対する強化学習(RL)問題は非常に難しい。
まず,最近開発された一般状態と行動空間を扱うために,政策ミラー降下法をかなり一般化した手法を提案する。
本手法に関数近似を組み込む新しい手法を導入し、明示的なポリシーパラメータ化を全く必要としない。
論文 参考訳(メタデータ) (2022-11-30T03:44:44Z) - Instance-Dependent Confidence and Early Stopping for Reinforcement
Learning [99.57168572237421]
強化学習(RL)のための様々なアルゴリズムは、その収束率の劇的な変動を問題構造の関数として示している。
この研究は、観察されたパフォーマンスの違いについて、textitexを説明する保証を提供する。
次の自然なステップは、これらの理論的保証を実際に有用なガイドラインに変換することです。
論文 参考訳(メタデータ) (2022-01-21T04:25:35Z) - MDPGT: Momentum-based Decentralized Policy Gradient Tracking [29.22173174168708]
マルチエージェント強化学習のための運動量に基づく分散型ポリシー勾配追跡(MDPGT)を提案する。
MDPGTは、グローバル平均の$N$ローカルパフォーマンス関数の$epsilon-stationaryポイントに収束するために$mathcalO(N-1epsilon-3)$の最良のサンプル複雑性を実現する。
これは、分散モデルレス強化学習における最先端のサンプル複雑さよりも優れています。
論文 参考訳(メタデータ) (2021-12-06T06:55:51Z) - A general sample complexity analysis of vanilla policy gradient [101.16957584135767]
政策勾配(PG)は、最も一般的な強化学習(RL)問題の1つである。
PG軌道の「バニラ」理論的理解は、RL問題を解く最も一般的な方法の1つである。
論文 参考訳(メタデータ) (2021-07-23T19:38:17Z) - Optimization Issues in KL-Constrained Approximate Policy Iteration [48.24321346619156]
多くの強化学習アルゴリズムは、近似ポリシー反復(API)のバージョンと見なすことができる。
標準APIはしばしば動作が悪いが、KL-divergenceによる各ポリシー更新を以前のポリシーに正規化することで学習が安定化できることが示されている。
TRPO、MPO、VMPOなどの一般的な実用的なアルゴリズムは、連続ポリシーのKL分割に関する制約によって正規化を置き換える。
論文 参考訳(メタデータ) (2021-02-11T19:35:33Z) - Fast Objective & Duality Gap Convergence for Non-Convex Strongly-Concave
Min-Max Problems with PL Condition [52.08417569774822]
本稿では,深層学習(深層AUC)により注目度が高まっている,円滑な非凹部min-max問題の解法に焦点をあてる。
論文 参考訳(メタデータ) (2020-06-12T00:32:21Z) - Average Reward Adjusted Discounted Reinforcement Learning:
Near-Blackwell-Optimal Policies for Real-World Applications [0.0]
強化学習は、与えられたマルコフ決定プロセスの最適な定常ポリシーを見つけることを目的としている。
本稿では,広く適用されている標準割引強化学習フレームワークについて,理論的考察を行う。
我々はブラックウェル-最適強化学習アルゴリズムを新たに構築する。
論文 参考訳(メタデータ) (2020-04-02T08:05:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。