論文の概要: Policy Gradient for s-Rectangular Robust Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2301.13589v1
- Date: Tue, 31 Jan 2023 12:40:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-01 16:38:49.498289
- Title: Policy Gradient for s-Rectangular Robust Markov Decision Processes
- Title(参考訳): s-矩形ロバストマルコフ決定過程の政策勾配
- Authors: Navdeep Kumar, Esther Derman, Matthieu Geist, Kfir Levy, Shie Mannor
- Abstract要約: s-正方形ロバストマルコフ決定過程(MDP)のための新しいロバストポリシー勾配法(RPG)を提案する。
我々はまず、逆核を閉じた形で導出し、それが名目核の1ランク摂動であることを示す。
- 参考スコア(独自算出の注目度): 59.1366433960312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel robust policy gradient method (RPG) for s-rectangular
robust Markov Decision Processes (MDPs). We are the first to derive the
adversarial kernel in a closed form and demonstrate that it is a one-rank
perturbation of the nominal kernel. This allows us to derive an RPG that is
similar to the one used in non-robust MDPs, except with a robust Q-value
function and an additional correction term. Both robust Q-values and correction
terms are efficiently computable, thus the time complexity of our method
matches that of non-robust MDPs, which is significantly faster compared to
existing black box methods.
- Abstract(参考訳): 本稿では,s-rectangular robust markov decision process (mdps) のための新しいロバストポリシー勾配法(rpg)を提案する。
我々は、敵の核を閉じた形で導出し、それが名目カーネルの1ランク摂動であることを示す最初の例である。
これにより、堅牢なQ値関数と追加の補正項を除いて、非ロバストなMDPで使用されるRPGを導出することができる。
頑健なQ値と補正項はともに効率よく計算可能であり,既存のブラックボックス法に比べてはるかに高速な非破壊型MDPと一致する。
関連論文リスト
- Near-Optimal Policy Identification in Robust Constrained Markov Decision Processes via Epigraph Form [26.01796404477275]
本稿では,頑健な制約付きMDP(RCMDP)における準最適ポリシーを同定できる最初のアルゴリズムを提案する。
最適ポリシーは、一連の環境における最悪のシナリオにおける制約を満たしながら累積コストを最小化する。
論文 参考訳(メタデータ) (2024-08-29T06:37:16Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Stabilizing Policy Gradients for Stochastic Differential Equations via Consistency with Perturbation Process [11.01014302314467]
我々は、ディープニューラルネットワークパラメータ化微分方程式(SDE)の最適化に焦点をあてる。
我々は、SDEが関連する摂動過程と整合するように制約することを提案する。
我々のフレームワークは、SDEを効果的かつ効率的に訓練するためのポリシー勾配法を多目的に選択する。
論文 参考訳(メタデータ) (2024-03-07T02:24:45Z) - Policy Gradient Algorithms for Robust MDPs with Non-Rectangular
Uncertainty Sets [10.26382228865201]
非矩形不確実性集合を持つロバスト無限水平マルコフ決定過程(MDP)に対するポリシー勾配アルゴリズムを提案する。
対応するロバストなMDPは動的プログラミング技術では解決できず、実際は難解である。
そこで我々は,大域的最適性保証を提供する非矩形不確実性集合を持つ頑健なMDPに対する最初の完全解法を提案する。
論文 参考訳(メタデータ) (2023-05-30T13:02:25Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z) - A Reinforcement Learning Approach to the Stochastic Cutting Stock
Problem [0.0]
本稿では,削減された無限水平決定プロセスとして,カットストック問題の定式化を提案する。
最適解は、各状態と決定を関連付け、期待される総コストを最小化するポリシーに対応する。
論文 参考訳(メタデータ) (2021-09-20T14:47:54Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z) - Batch Reinforcement Learning with a Nonparametric Off-Policy Policy
Gradient [34.16700176918835]
オフライン強化学習は、より良いデータ効率を約束する。
現在の非政治政策勾配法は、高いバイアスまたは高い分散に悩まされ、しばしば信頼できない見積もりを提供する。
閉形式で解ける非パラメトリックベルマン方程式を提案する。
論文 参考訳(メタデータ) (2020-10-27T13:40:06Z) - Deep Bayesian Quadrature Policy Optimization [100.81242753620597]
ディープベイズ二次政策勾配 (Deep Bayesian quadrature Policy gradient, DBQPG) は、政策勾配推定のためのベイズ二次政策の高次元一般化である。
政策勾配法では,DBQPGがモンテカルロ推定を代用できることを示すとともに,一連の連続制御ベンチマーク上での有効性を示す。
論文 参考訳(メタデータ) (2020-06-28T15:44:47Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。