論文の概要: Optimistic Policy Optimization is Provably Efficient in Non-stationary
MDPs
- arxiv url: http://arxiv.org/abs/2110.08984v1
- Date: Mon, 18 Oct 2021 02:33:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 14:36:00.060233
- Title: Optimistic Policy Optimization is Provably Efficient in Non-stationary
MDPs
- Title(参考訳): 非定常MDPにおける最適政策最適化の有効性
- Authors: Han Zhong, Zhuoran Yang, Zhaoran Wang Csaba Szepesv\'ari
- Abstract要約: 非定常線形カーネルマルコフ決定過程(MDP)におけるエピソード強化学習(RL)の研究
本稿では,$underlinetextp$eriodically $underlinetextr$estarted $underlinetexto$ptimistic $underlinetextp$olicy $underlinetexto$ptimization algorithm (PROPO)を提案する。
- 参考スコア(独自算出の注目度): 45.6318149525364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study episodic reinforcement learning (RL) in non-stationary linear kernel
Markov decision processes (MDPs). In this setting, both the reward function and
the transition kernel are linear with respect to the given feature maps and are
allowed to vary over time, as long as their respective parameter variations do
not exceed certain variation budgets. We propose the
$\underline{\text{p}}$eriodically $\underline{\text{r}}$estarted
$\underline{\text{o}}$ptimistic $\underline{\text{p}}$olicy
$\underline{\text{o}}$ptimization algorithm (PROPO), which is an optimistic
policy optimization algorithm with linear function approximation. PROPO
features two mechanisms: sliding-window-based policy evaluation and
periodic-restart-based policy improvement, which are tailored for policy
optimization in a non-stationary environment. In addition, only utilizing the
technique of sliding window, we propose a value-iteration algorithm. We
establish dynamic upper bounds for the proposed methods and a matching minimax
lower bound which shows the (near-) optimality of the proposed methods. To our
best knowledge, PROPO is the first provably efficient policy optimization
algorithm that handles non-stationarity.
- Abstract(参考訳): 非定常線形カーネルマルコフ決定過程(MDP)におけるエピソード強化学習(RL)について検討した。
この設定では、報酬関数と遷移核は、与えられた特徴写像に対して線形であり、それぞれのパラメータの変動が特定の変動予算を超えない限り、時間とともに変化することが許される。
線形関数近似を用いた楽観的ポリシー最適化アルゴリズムである,$\underline{\text{p}}$eriodically $\underline{\text{r}}$estarted $\underline{\text{o}}$ptimistic $\underline{\text{p}}$olicy $\underline{\text{o}}$ptimization algorithm (PROPO)を提案する。
PROPOはスライディングウインドウに基づく政策評価と周期的再起動に基づく政策改善の2つのメカニズムを特徴としている。
また,スライディングウインドウの手法を利用するだけで,値イテレーションアルゴリズムを提案する。
提案手法の動的上界と,提案手法の(近距離)最適性を示す最小最小下界のマッチングを定式化する。
私たちの知る限り、propoは非定常性を扱う最初の有効なポリシー最適化アルゴリズムです。
関連論文リスト
- Optimal Strong Regret and Violation in Constrained MDPs via Policy Optimization [37.24692425018]
Emphconstrained MDPs(CMDPs)におけるオンライン学習の研究
提案アルゴリズムは, 対向型MDPに対して, 最先端のポリシー最適化アプローチを採用するプリミティブ・デュアル・スキームを実装している。
論文 参考訳(メタデータ) (2024-10-03T07:54:04Z) - Low-Switching Policy Gradient with Exploration via Online Sensitivity
Sampling [23.989009116398208]
一般非線形関数近似を用いた低スイッチングサンプリング効率ポリシ最適化アルゴリズム LPO を設計する。
提案アルゴリズムは,$widetildeO(fractextpoly(d)varepsilon3)$サンプルのみを用いて,$varepsilon$-optimal Policyを得る。
論文 参考訳(メタデータ) (2023-06-15T23:51:46Z) - Optimistic Natural Policy Gradient: a Simple Efficient Policy
Optimization Framework for Online RL [23.957148537567146]
本稿では,オンラインRLのための最適化NPGという,シンプルな効率的なポリシー最適化フレームワークを提案する。
$d$次元線形 MDP の場合、Optimistic NPG は計算効率が良く、$tildeO(d2/varepsilon3)$サンプル内で $varepsilon$-Optimal Policy を学ぶ。
論文 参考訳(メタデータ) (2023-05-18T15:19:26Z) - Policy Gradient Algorithms Implicitly Optimize by Continuation [7.351769270728942]
我々は、政策段階的なアルゴリズムの探索は、目の前にある政策の回帰の継続であり、その回帰を最大化するよりも、政策は歴史に依存しているべきだと論じる。
論文 参考訳(メタデータ) (2023-05-11T14:50:20Z) - Proximal Point Imitation Learning [48.50107891696562]
我々は、無限地平線模倣学習のための厳密な効率保証を備えた新しいアルゴリズムを開発した。
我々は、最適化、特に近点法(PPM)と双対平滑化から古典的ツールを活用する。
線形関数とニューラルネットワーク関数の近似の双方に対して、説得力のある経験的性能を実現する。
論文 参考訳(メタデータ) (2022-09-22T12:40:21Z) - Understanding the Effect of Stochasticity in Policy Optimization [86.7574122154668]
最適化手法の優位性は、正確な勾配が用いられるかどうかに大きく依存することを示す。
次に,政策最適化におけるコミット率の概念を紹介する。
第三に、外部のオラクル情報がない場合には、収束を加速するために幾何を利用することと、最適性をほぼ確実に達成することとの間に本質的にトレードオフがあることが示される。
論文 参考訳(メタデータ) (2021-10-29T06:35:44Z) - Bregman Gradient Policy Optimization [97.73041344738117]
本稿では,Bregmanの発散と運動量に基づく強化学習のためのBregmanグラデーションポリシーの最適化を設計する。
VR-BGPOは、各イテレーションで1つの軌道のみを必要とする$epsilon$stationaryポイントを見つけるために、$tilde(epsilon-3)$で最高の複雑性に達する。
論文 参考訳(メタデータ) (2021-06-23T01:08:54Z) - Softmax Policy Gradient Methods Can Take Exponential Time to Converge [60.98700344526674]
Softmax Policy gradient(PG)メソッドは、現代の強化学習におけるポリシー最適化の事実上の実装の1つです。
ソフトマックス PG 法は、$mathcalS|$ および $frac11-gamma$ の観点から指数時間で収束できることを実証する。
論文 参考訳(メタデータ) (2021-02-22T18:56:26Z) - Provably Efficient Exploration in Policy Optimization [117.09887790160406]
本稿では,最適化アルゴリズム(OPPO)の最適変種を提案する。
OPPO は $tildeO(sqrtd2 H3 T )$ regret を達成する。
我々の知る限りでは、OPPOは、探索する最初の証明可能な効率的なポリシー最適化アルゴリズムである。
論文 参考訳(メタデータ) (2019-12-12T08:40:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。