論文の概要: Theoretical Guarantees of Fictitious Discount Algorithms for Episodic
Reinforcement Learning and Global Convergence of Policy Gradient Methods
- arxiv url: http://arxiv.org/abs/2109.06362v1
- Date: Mon, 13 Sep 2021 23:36:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-15 15:25:54.459466
- Title: Theoretical Guarantees of Fictitious Discount Algorithms for Episodic
Reinforcement Learning and Global Convergence of Policy Gradient Methods
- Title(参考訳): エピソード強化学習のための実測値アルゴリズムの理論的保証と政策勾配法のグローバル収束
- Authors: Xin Guo, Anran Hu, Junzi Zhang
- Abstract要約: 一般的なアプローチは、架空の割引係数を導入し、近似に定常ポリシーを使用することである。
本稿では,これらのアルゴリズムを解析する第一歩を踏み出す。
どちらのアルゴリズムにも非漸近収束保証が確立されている。
- 参考スコア(独自算出の注目度): 6.7546872379126155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When designing algorithms for finite-time-horizon episodic reinforcement
learning problems, a common approach is to introduce a fictitious discount
factor and use stationary policies for approximations. Empirically, it has been
shown that the fictitious discount factor helps reduce variance, and stationary
policies serve to save the per-iteration computational cost. Theoretically,
however, there is no existing work on convergence analysis for algorithms with
this fictitious discount recipe. This paper takes the first step towards
analyzing these algorithms. It focuses on two vanilla policy gradient (VPG)
variants: the first being a widely used variant with discounted advantage
estimations (DAE), the second with an additional fictitious discount factor in
the score functions of the policy gradient estimators. Non-asymptotic
convergence guarantees are established for both algorithms, and the additional
discount factor is shown to reduce the bias introduced in DAE and thus improve
the algorithm convergence asymptotically. A key ingredient of our analysis is
to connect three settings of Markov decision processes (MDPs): the
finite-time-horizon, the average reward and the discounted settings. To our
best knowledge, this is the first theoretical guarantee on fictitious discount
algorithms for the episodic reinforcement learning of finite-time-horizon MDPs,
which also leads to the (first) global convergence of policy gradient methods
for finite-time-horizon episodic reinforcement learning.
- Abstract(参考訳): 有限時間水平強化学習問題に対するアルゴリズムを設計する場合、一般的なアプローチは、架空の割引係数を導入し、近似に定常ポリシーを使用することである。
実証的に、虚偽の割引係数が分散を減少させ、定常的なポリシーが解定当たりの計算コストの削減に役立つことが示されている。
しかし理論的には、この架空の割引レシピを持つアルゴリズムの収束解析に関する既存の研究は存在しない。
本稿では,これらのアルゴリズムを解析する第一歩を踏み出す。
2つのバニラ政策勾配(VPG)の変種に焦点を当て、第1は割引利得推定(DAE)で広く使われている変種であり、第2は政策勾配推定器のスコア関数に虚偽の割引係数を加えたものである。
両アルゴリズムの非漸近収束保証が確立され、追加の割引係数がDAEで導入されたバイアスを低減し、アルゴリズム収束を漸近的に改善することを示した。
分析の鍵となる要素はマルコフ決定過程(MDP)の3つの設定(有限時間水平、平均報酬、割引設定)を接続することである。
我々の知る限り、これは有限時間水平MDPのエピソディック強化学習のための架空の割引アルゴリズムに関する最初の理論的保証であり、有限時間水平強化学習のためのポリシー勾配法(英語版)の(最初の)大域的な収束につながる。
関連論文リスト
- Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - On the Global Convergence of Policy Gradient in Average Reward Markov
Decision Processes [50.68789924454235]
我々は、平均報酬マルコフ決定過程(MDP)の文脈における政策勾配の最初の有限時間大域収束解析を示す。
我々の分析によると、ポリシー勾配は、$Oleft(frac1Tright)$のサブリニアレートで最適ポリシーに収束し、$Oleft(log(T)right)$ regretに変換され、$T$は反復数を表す。
論文 参考訳(メタデータ) (2024-03-11T15:25:03Z) - Regret Analysis of Policy Gradient Algorithm for Infinite Horizon
Average Reward Markov Decision Processes [38.879933964474326]
我々は、無限水平平均報酬マルコフ決定過程(MDP)を考える。
政策勾配に基づくアルゴリズムを提案し,その大域収束特性を示す。
提案アルゴリズムが $tildemathcalO(T3/4)$ regret であることを示す。
論文 参考訳(メタデータ) (2023-09-05T03:22:46Z) - Momentum-Based Policy Gradient with Second-Order Information [40.51117836892182]
本稿では,2次情報を勾配降下に組み込んだSHARP法を提案する。
従来の研究と異なり,提案アルゴリズムでは,分散還元プロセスの利点を損なうような重要サンプリングを必要としない。
提案手法が様々な制御課題に対して有効であることを示すとともに,実際の技術状況に対する優位性を示す。
論文 参考訳(メタデータ) (2022-05-17T11:56:50Z) - Faster Algorithm and Sharper Analysis for Constrained Markov Decision
Process [56.55075925645864]
制約付き意思決定プロセス (CMDP) の問題点について検討し, エージェントは, 複数の制約を条件として, 期待される累積割引報酬を最大化することを目的とする。
新しいユーティリティ・デュアル凸法は、正規化ポリシー、双対正則化、ネステロフの勾配降下双対という3つの要素の新たな統合によって提案される。
これは、凸制約を受ける全ての複雑性最適化に対して、非凸CMDP問題が$mathcal O (1/epsilon)$の低い境界に達する最初の実演である。
論文 参考訳(メタデータ) (2021-10-20T02:57:21Z) - A Two-Time-Scale Stochastic Optimization Framework with Applications in Control and Reinforcement Learning [13.908826484332282]
最適化問題の解法として,新しい2段階勾配法を提案する。
最初の貢献は、提案した2時間スケール勾配アルゴリズムの有限時間複雑性を特徴づけることである。
我々は、強化学習における勾配に基づく政策評価アルゴリズムに適用する。
論文 参考訳(メタデータ) (2021-09-29T23:15:23Z) - Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。
我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。
また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文 参考訳(メタデータ) (2021-07-02T16:21:52Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - Smoothed functional-based gradient algorithms for off-policy reinforcement learning: A non-asymptotic viewpoint [8.087699764574788]
政治外の強化学習コンテキストにおける制御問題の解法として,2つのポリシー勾配アルゴリズムを提案する。
どちらのアルゴリズムも、スムーズな関数的勾配推定スキームを取り入れている。
論文 参考訳(メタデータ) (2021-01-06T17:06:42Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。