論文の概要: Policy Mirror Descent with Lookahead
- arxiv url: http://arxiv.org/abs/2403.14156v2
- Date: Wed, 30 Oct 2024 18:24:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 23:41:23.151320
- Title: Policy Mirror Descent with Lookahead
- Title(参考訳): ルカヘッドと政策鏡
- Authors: Kimon Protopapas, Anas Barakat,
- Abstract要約: Policy Mirror Descent (PMD) はソフトポリシー 正規化された1段階の欲求政策改善を実装するアルゴリズム。
我々は,多段階の欲求政策改善を取り入れた新しいPMDアルゴリズムである$h$-PMDを提案する。
我々は, 次元自由な$gammah$-linearコンバージェンスレートを, 多段階グリーディポリシの計算により, $h$-PMDがより高速な次元自由な$gammah$-linearコンバージェンスレートを享受できることを示す。
- 参考スコア(独自算出の注目度): 0.46040036610482665
- License:
- Abstract: Policy Mirror Descent (PMD) stands as a versatile algorithmic framework encompassing several seminal policy gradient algorithms such as natural policy gradient, with connections with state-of-the-art reinforcement learning (RL) algorithms such as TRPO and PPO. PMD can be seen as a soft Policy Iteration algorithm implementing regularized 1-step greedy policy improvement. However, 1-step greedy policies might not be the best choice and recent remarkable empirical successes in RL such as AlphaGo and AlphaZero have demonstrated that greedy approaches with respect to multiple steps outperform their 1-step counterpart. In this work, we propose a new class of PMD algorithms called $h$-PMD which incorporates multi-step greedy policy improvement with lookahead depth $h$ to the PMD update rule. To solve discounted infinite horizon Markov Decision Processes with discount factor $\gamma$, we show that $h$-PMD which generalizes the standard PMD enjoys a faster dimension-free $\gamma^h$-linear convergence rate, contingent on the computation of multi-step greedy policies. We propose an inexact version of $h$-PMD where lookahead action values are estimated. Under a generative model, we establish a sample complexity for $h$-PMD which improves over prior work. Finally, we extend our result to linear function approximation to scale to large state spaces. Under suitable assumptions, our sample complexity only involves dependence on the dimension of the feature map space instead of the state space size.
- Abstract(参考訳): Policy Mirror Descent (PMD) は、TRPOやPPOのような最先端の強化学習(RL)アルゴリズムと接続する、自然政策勾配のようないくつかの基本的なポリシー勾配アルゴリズムを含む汎用的なアルゴリズムフレームワークである。
PMDは、正規化された1段階の欲求政策改善を実装するソフトポリシーイテレーションアルゴリズムと見なすことができる。
しかし、1段階の欲求政策は最良の選択ではないかもしれないし、AlphaGoやAlphaZeroのようなRLにおける最近の顕著な経験的成功は、複数のステップに対する欲求的アプローチが1段階よりも優れていることを示した。
そこで本研究では,PMD更新ルールに対するルックアヘッド深度$h$の多段階グリージーポリシーの改善を取り入れた,新しいPMDアルゴリズムである$h$-PMDを提案する。
割引された無限地平面マルコフ決定過程を割引係数$\gamma$で解くために、標準PMDを一般化する$h$-PMDがより高速な次元自由な$\gamma^h$-linear convergence rate(英語版)を享受し、多段階グリーディポリシーの計算に係わることを示す。
我々は、ルックアヘッドアクション値を推定する$h$-PMDの不正確なバージョンを提案する。
生成モデルの下では、以前の作業よりも改善された$h$-PMDのサンプル複雑性を確立する。
最後に、この結果を線形関数近似に拡張し、大規模状態空間に拡張する。
適切な仮定の下では、我々のサンプルの複雑さは状態空間のサイズではなく特徴写像空間の次元に依存するだけである。
関連論文リスト
- Model-Free, Regret-Optimal Best Policy Identification in Online CMDPs [17.62509045102346]
本稿では,CMDP(Constrained Markov Decision Processs)における最適ポリシー識別問題について考察する。
私たちは、モデルフリーで、後悔の少ないアルゴリズムに興味を持ち、確率の高いほぼ最適なポリシーを特定しています。
オンラインCMDPのサブ線形後悔と制約違反を伴う既存のモデルフリーアルゴリズムでは、最適ポリシーに対する収束保証は提供されない。
論文 参考訳(メタデータ) (2023-09-27T04:33:09Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - Optimal Convergence Rate for Exact Policy Mirror Descent in Discounted
Markov Decision Processes [18.35462792871242]
Policy Mirror Descentは、強化学習における様々な新しい基本的な手法を網羅するアルゴリズムのファミリーである。
不正確な政策評価を伴う政策反復の不安定性に動機づけられたPMDは、PIの政策改善ステップをアルゴリズム的に規則化する。
我々は,適応的なステップサイズの下で,非正規化PSDアルゴリズムの一般ファミリーによって,PIの次元自由な$gamma$-rateが達成可能であることを示す。
論文 参考訳(メタデータ) (2023-02-22T13:55:08Z) - First-order Policy Optimization for Robust Markov Decision Process [40.2022466644885]
我々はロバストマルコフ決定過程(MDP)の解法を考える。
MDPは、不確実な遷移カーネルを持つ割引状態、有限状態、有限作用空間 MDP の集合を含む。
$(mathbfs,mathbfa)$-矩形不確かさ集合に対して、ロバストな目的に関するいくつかの構造的な観察を確立する。
論文 参考訳(メタデータ) (2022-09-21T18:10:28Z) - Nearly Optimal Latent State Decoding in Block MDPs [74.51224067640717]
エピソードブロック MDP では、意思決定者は少数の潜在状態から生成される豊富な観測やコンテキストにアクセスすることができる。
まず、固定動作ポリシーに基づいて生成されたデータに基づいて、潜時状態復号関数を推定することに興味がある。
次に、報酬のないフレームワークにおいて、最適に近いポリシーを学習する問題について研究する。
論文 参考訳(メタデータ) (2022-08-17T18:49:53Z) - Best Policy Identification in Linear MDPs [70.57916977441262]
縮退した線形マルコフ+デルタ決定における最適同定問題について, 生成モデルに基づく固定信頼度設定における検討を行った。
複雑な非最適化プログラムの解としての下位境界は、そのようなアルゴリズムを考案する出発点として用いられる。
論文 参考訳(メタデータ) (2022-08-11T04:12:50Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z) - Block Policy Mirror Descent [40.2022466644885]
ブロックポリシミラー降下(BPMD)という新しいポリシークラス(PG)手法を提案する。
BPMDは、強い凸正則化を伴う正規化強化学習(RL)のクラスを解決するために用いられる。
強化学習におけるポリシー最適化のために,ブロック座標降下法が開発され,解析されたのはこれが初めてである。
論文 参考訳(メタデータ) (2022-01-15T04:42:02Z) - Softmax Policy Gradient Methods Can Take Exponential Time to Converge [60.98700344526674]
Softmax Policy gradient(PG)メソッドは、現代の強化学習におけるポリシー最適化の事実上の実装の1つです。
ソフトマックス PG 法は、$mathcalS|$ および $frac11-gamma$ の観点から指数時間で収束できることを実証する。
論文 参考訳(メタデータ) (2021-02-22T18:56:26Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。