Fugu-MT 論文翻訳(概要): On the Convergence Rate of the Stochastic Gradient Descent (SGD) and application to a modified policy gradient for the Multi Armed Bandit

論文の概要: On the Convergence Rate of the Stochastic Gradient Descent (SGD) and application to a modified policy gradient for the Multi Armed Bandit

arxiv url: http://arxiv.org/abs/2402.06388v1
Date: Fri, 9 Feb 2024 13:10:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-12 16:52:25.758173
Title: On the Convergence Rate of the Stochastic Gradient Descent (SGD) and application to a modified policy gradient for the Multi Armed Bandit
Title（参考訳）: 確率勾配Descence (SGD) の収束速度とマルチアームバンドに対する修正ポリシー勾配への応用について
Authors: Stefana Anita and Gabriel Turinici
Abstract要約: 本稿では,学習速度が逆時間減衰のスケジュールに従えば,SGDの収束率を自己完結した証明を示す。次に、L2$正規化を施した修正型勾配ポリシー(MAB)の収束に適用する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: We present a self-contained proof of the convergence rate of the Stochastic Gradient Descent (SGD) when the learning rate follows an inverse time decays schedule; we next apply the results to the convergence of a modified form of policy gradient Multi-Armed Bandit (MAB) with $L2$ regularization.
Abstract（参考訳）: 本稿では,確率的勾配降下(sgd)の収束率について,逆時間減衰スケジュールに従う場合の自己完結的な証明を示す。

関連論文リスト

Convergence and Sample Complexity of First-Order Methods for Agnostic Reinforcement Learning [66.4260157478436]
政策学習における強化学習について検討する。目的は、特定の種類の利害関係において最高の政策と競争力のある政策を見つけることである。
論文参考訳（メタデータ） (2025-07-06T14:40:05Z)
Convergence of Policy Mirror Descent Beyond Compatible Function Approximation [66.4260157478436]
我々は,より弱い変動支配を前提とした理論的PMD一般政策クラスを開発し,最良クラス政策への収束を得る。我々の主観念は、占有度-勾配測度によって誘導される局所ノルムによって誘導される新しい概念を活用する。
論文参考訳（メタデータ） (2025-02-16T08:05:46Z)
Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [56.92178753201331]
平均逆無限水平POMDPを未知の遷移モデルで扱う。この障壁を克服する斬新でシンプルな推定器を提示する。
論文参考訳（メタデータ） (2025-01-30T22:29:41Z)
Dual Approximation Policy Optimization [20.787309027373208]
本稿では、一般関数近似をポリシーミラー降下法に組み込んだフレームワークであるDual Approximation Policy Optimization (DAPO)を提案する。この双対性フレームワークは理論的および実践的両方の意味を持つ。
論文参考訳（メタデータ） (2024-10-02T05:49:11Z)
Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文参考訳（メタデータ） (2024-07-15T14:54:57Z)
Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文参考訳（メタデータ） (2024-05-03T16:45:15Z)
Policy Optimization over General State and Action Spaces [3.722665817361884]
一般的な状態や行動空間に対する強化学習(RL)問題は非常に難しい。まず,最近開発された一般状態と行動空間を扱うために,政策ミラー降下法をかなり一般化した手法を提案する。本手法に関数近似を組み込む新しい手法を導入し、明示的なポリシーパラメータ化を全く必要としない。
論文参考訳（メタデータ） (2022-11-30T03:44:44Z)
Instance-Dependent Confidence and Early Stopping for Reinforcement Learning [99.57168572237421]
強化学習(RL)のための様々なアルゴリズムは、その収束率の劇的な変動を問題構造の関数として示している。この研究は、観察されたパフォーマンスの違いについて、textitexを説明する保証を提供する。次の自然なステップは、これらの理論的保証を実際に有用なガイドラインに変換することです。
論文参考訳（メタデータ） (2022-01-21T04:25:35Z)
MDPGT: Momentum-based Decentralized Policy Gradient Tracking [29.22173174168708]
マルチエージェント強化学習のための運動量に基づく分散型ポリシー勾配追跡(MDPGT)を提案する。 MDPGTは、グローバル平均の$N$ローカルパフォーマンス関数の$epsilon-stationaryポイントに収束するために$mathcalO(N-1epsilon-3)$の最良のサンプル複雑性を実現する。これは、分散モデルレス強化学習における最先端のサンプル複雑さよりも優れています。
論文参考訳（メタデータ） (2021-12-06T06:55:51Z)
A general sample complexity analysis of vanilla policy gradient [101.16957584135767]
政策勾配(PG)は、最も一般的な強化学習(RL)問題の1つである。 PG軌道の「バニラ」理論的理解は、RL問題を解く最も一般的な方法の1つである。
論文参考訳（メタデータ） (2021-07-23T19:38:17Z)
Optimization Issues in KL-Constrained Approximate Policy Iteration [48.24321346619156]
多くの強化学習アルゴリズムは、近似ポリシー反復(API)のバージョンと見なすことができる。標準APIはしばしば動作が悪いが、KL-divergenceによる各ポリシー更新を以前のポリシーに正規化することで学習が安定化できることが示されている。 TRPO、MPO、VMPOなどの一般的な実用的なアルゴリズムは、連続ポリシーのKL分割に関する制約によって正規化を置き換える。
論文参考訳（メタデータ） (2021-02-11T19:35:33Z)
Fast Objective & Duality Gap Convergence for Non-Convex Strongly-Concave Min-Max Problems with PL Condition [52.08417569774822]
本稿では,深層学習(深層AUC)により注目度が高まっている,円滑な非凹部min-max問題の解法に焦点をあてる。
論文参考訳（メタデータ） (2020-06-12T00:32:21Z)
Average Reward Adjusted Discounted Reinforcement Learning: Near-Blackwell-Optimal Policies for Real-World Applications [0.0]
強化学習は、与えられたマルコフ決定プロセスの最適な定常ポリシーを見つけることを目的としている。本稿では,広く適用されている標準割引強化学習フレームワークについて,理論的考察を行う。我々はブラックウェル-最適強化学習アルゴリズムを新たに構築する。
論文参考訳（メタデータ） (2020-04-02T08:05:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。