論文の概要: Policy Gradient Algorithms for Robust MDPs with Non-Rectangular
Uncertainty Sets
- arxiv url: http://arxiv.org/abs/2305.19004v1
- Date: Tue, 30 May 2023 13:02:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 16:23:29.963809
- Title: Policy Gradient Algorithms for Robust MDPs with Non-Rectangular
Uncertainty Sets
- Title(参考訳): 非矩形不確かさ集合をもつロバストMDPのポリシー勾配アルゴリズム
- Authors: Mengmeng Li, Tobias Sutter, Daniel Kuhn
- Abstract要約: 非矩形不確実集合を持つロバストな無限水平マルコフ決定過程に対するポリシー勾配アルゴリズムを提案する。
提案アルゴリズムは局所最適化を回避できるが,不確かさを考慮に入れたアルゴリズムでは実現できないことを示す。
- 参考スコア(独自算出の注目度): 12.20367903755194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a policy gradient algorithm for robust infinite-horizon Markov
Decision Processes (MDPs) with non-rectangular uncertainty sets, thereby
addressing an open challenge in the robust MDP literature. Indeed, uncertainty
sets that display statistical optimality properties and make optimal use of
limited data often fail to be rectangular. Unfortunately, the corresponding
robust MDPs cannot be solved with dynamic programming techniques and are in
fact provably intractable. This prompts us to develop a projected Langevin
dynamics algorithm tailored to the robust policy evaluation problem, which
offers global optimality guarantees. We also propose a deterministic policy
gradient method that solves the robust policy evaluation problem approximately,
and we prove that the approximation error scales with a new measure of
non-rectangularity of the uncertainty set. Numerical experiments showcase that
our projected Langevin dynamics algorithm can escape local optima, while
algorithms tailored to rectangular uncertainty fail to do so.
- Abstract(参考訳): 非矩形不確実性集合を持つロバストな無限水平マルコフ決定過程(MDP)に対するポリシー勾配アルゴリズムを提案し、ロバストなMDP文献におけるオープンな課題に対処する。
実際、統計的最適性特性を示し、限られたデータの最適利用を行う不確実性集合は長方形でないことが多い。
残念なことに、対応する堅牢なMDPは動的プログラミング技術では解決できず、実際は難解である。
これにより,グローバルな最適性保証を提供するロバストポリシー評価問題に適したランゲヴィン動的アルゴリズムの開発が促される。
また,ロバストな政策評価問題を概ね解く決定論的政策勾配法を提案し,不確実性集合の非正方性の新しい尺度を用いて近似誤差がスケールすることを示す。
数値実験により,予測したランジュバンダイナミクスアルゴリズムは局所光学を逃れることができたが,矩形不確かさに合わせたアルゴリズムはそうはならなかった。
関連論文リスト
- Near-Optimal Policy Identification in Robust Constrained Markov Decision Processes via Epigraph Form [26.01796404477275]
本稿では,頑健な制約付きMDP(RCMDP)における準最適ポリシーを同定できる最初のアルゴリズムを提案する。
最適ポリシーは、一連の環境における最悪のシナリオにおける制約を満たしながら累積コストを最小化する。
論文 参考訳(メタデータ) (2024-08-29T06:37:16Z) - Global Algorithms for Mean-Variance Optimization in Markov Decision
Processes [8.601670707452083]
マルコフ決定過程(MDP)における平均と分散の動的最適化は、動的プログラミングの失敗によって引き起こされる長年にわたる課題である。
本研究では, 定常平均値と分散値の組合せを組み合わさって, 無限水平非分散MDPの最適解を求める手法を提案する。
論文 参考訳(メタデータ) (2023-02-27T12:17:43Z) - Policy Gradient for Rectangular Robust Markov Decision Processes [62.397882389472564]
我々は,長方形ロバストなマルコフ決定過程(MDP)を効率的に解く政策ベース手法であるロバストなポリシー勾配(RPG)を導入する。
結果のRPGは、非ロバストな等価値と同じ時間のデータから推定することができる。
論文 参考訳(メタデータ) (2023-01-31T12:40:50Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - First-order Policy Optimization for Robust Markov Decision Process [40.2022466644885]
我々はロバストマルコフ決定過程(MDP)の解法を考える。
MDPは、不確実な遷移カーネルを持つ割引状態、有限状態、有限作用空間 MDP の集合を含む。
$(mathbfs,mathbfa)$-矩形不確かさ集合に対して、ロバストな目的に関するいくつかの構造的な観察を確立する。
論文 参考訳(メタデータ) (2022-09-21T18:10:28Z) - Softmax Policy Gradient Methods Can Take Exponential Time to Converge [60.98700344526674]
Softmax Policy gradient(PG)メソッドは、現代の強化学習におけるポリシー最適化の事実上の実装の1つです。
ソフトマックス PG 法は、$mathcalS|$ および $frac11-gamma$ の観点から指数時間で収束できることを実証する。
論文 参考訳(メタデータ) (2021-02-22T18:56:26Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z) - Robust Reinforcement Learning using Least Squares Policy Iteration with
Provable Performance Guarantees [3.8073142980733]
本稿では,ロバストマルコフ決定過程(RMDP)におけるモデルレス強化学習の課題について述べる。
本稿では、まず、ポリシー評価のための多段階オンラインモデルフリー学習アルゴリズムであるRobust Least Squares Policy Evaluationアルゴリズムを提案する。
次に,ロバスト・ラスト・スクエアズ・ポリシー・イテレーション (RLSPI) アルゴリズムを提案し,ロバスト・ラスト・スクエアズ・ポリシーを最適に学習する。
論文 参考訳(メタデータ) (2020-06-20T16:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。