論文の概要: On the Convergence of Modified Policy Iteration in Risk Sensitive
Exponential Cost Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2302.03811v2
- Date: Thu, 15 Feb 2024 15:15:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 21:26:42.458809
- Title: On the Convergence of Modified Policy Iteration in Risk Sensitive
Exponential Cost Markov Decision Processes
- Title(参考訳): リスク感性指数コストマルコフ決定過程における修正政策反復の収束性について
- Authors: Yashaswini Murthy, Mehrdad Moharrami and R. Srikant
- Abstract要約: 修正ポリシー反復(英:Modified Policy iteration、MPI)は、ポリシーの反復と価値の反復の要素を組み合わせた動的プログラミングアルゴリズムである。
有限状態および作用空間の場合、MPIがリスク感受性問題に収束するという最初の証明を提供する。
本研究は,リスクに敏感なMPIの計算効率を,価値とポリシーの反復技術と比較して向上させるものである。
- 参考スコア(独自算出の注目度): 9.100580570005407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modified policy iteration (MPI) is a dynamic programming algorithm that
combines elements of policy iteration and value iteration. The convergence of
MPI has been well studied in the context of discounted and average-cost MDPs.
In this work, we consider the exponential cost risk-sensitive MDP formulation,
which is known to provide some robustness to model parameters. Although policy
iteration and value iteration have been well studied in the context of risk
sensitive MDPs, MPI is unexplored. We provide the first proof that MPI also
converges for the risk-sensitive problem in the case of finite state and action
spaces. Since the exponential cost formulation deals with the multiplicative
Bellman equation, our main contribution is a convergence proof which is quite
different than existing results for discounted and risk-neutral average-cost
problems as well as risk sensitive value and policy iteration approaches. We
conclude our analysis with simulation results, assessing MPI's performance
relative to alternative dynamic programming methods like value iteration and
policy iteration across diverse problem parameters. Our findings highlight
risk-sensitive MPI's enhanced computational efficiency compared to both value
and policy iteration techniques.
- Abstract(参考訳): MPI(Modified Policy iteration)は、ポリシーの反復と価値の反復の要素を組み合わせた動的プログラミングアルゴリズムである。
MPIの収束は、割引および平均コストのMDPの文脈でよく研究されている。
本研究では,モデルパラメータにロバスト性を有する指数的コストリスク感応型MDPの定式化について考察する。
政策の反復と価値の反復はリスクに敏感なMDPの文脈でよく研究されているが、MPIは未検討である。
MPIが有限状態および作用空間の場合のリスク感受性問題にも収束するという最初の証明を提供する。
指数的コストの定式化は、乗法ベルマン方程式を扱うので、我々の主な貢献は、割引やリスクニュートラルな平均コスト問題に対する既存の結果と全く異なる収束証明であり、リスクセンシティブな値とポリシーの反復アプローチである。
我々は,MPIの性能を,様々な問題パラメータにまたがる値反復やポリシー反復といった他の動的プログラミング手法と比較して評価する。
本研究は,リスクに敏感なMPIの計算効率を,価値とポリシーの反復技術と比較した。
関連論文リスト
- Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - Stationary Policies are Optimal in Risk-averse Total-reward MDPs with EVaR [12.719528972742394]
リスク・アバースの総報酬基準は定常政策によって最適化可能であることを示す。
以上の結果から, リスク回避型強化学習領域において, 全報酬基準が割引基準よりも望ましい可能性が示唆された。
論文 参考訳(メタデータ) (2024-08-30T13:33:18Z) - Certifiably Robust Policies for Uncertain Parametric Environments [57.2416302384766]
本稿ではパラメータ上の未知分布を持つパラメトリックマルコフ決定プロセス(MDP)に基づくフレームワークを提案する。
パラメータによって誘導される未知のサンプル環境に対するIMDPの学習と解析を行う。
当社のアプローチは,信頼度の高い政策のパフォーマンスに厳密な拘束力をもたらすことを示す。
論文 参考訳(メタデータ) (2024-08-06T10:48:15Z) - On the Global Convergence of Policy Gradient in Average Reward Markov
Decision Processes [50.68789924454235]
我々は、平均報酬マルコフ決定過程(MDP)の文脈における政策勾配の最初の有限時間大域収束解析を示す。
我々の分析によると、ポリシー勾配は、$Oleft(frac1Tright)$のサブリニアレートで最適ポリシーに収束し、$Oleft(log(T)right)$ regretに変換され、$T$は反復数を表す。
論文 参考訳(メタデータ) (2024-03-11T15:25:03Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Robust Average-Reward Markov Decision Processes [25.125481838479256]
我々は,不確実なセットに対して最悪の平均報酬を最適化する政策を見出すことを目標とする,堅牢な平均リワードMDPに焦点を当てる。
我々は, ディスカウント型MDPを用いて, 平均回帰MDPを近似するアプローチを採っている。
我々は、ロバスト平均逆 MDP に対するロバストなベルマン方程式を導出し、最適ポリシーがその解から導出できることを証明し、さらに、その解を確実に見つけ出すロバストな相対値アルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-01-02T19:51:55Z) - First-order Policy Optimization for Robust Markov Decision Process [40.2022466644885]
我々はロバストマルコフ決定過程(MDP)の解法を考える。
MDPは、不確実な遷移カーネルを持つ割引状態、有限状態、有限作用空間 MDP の集合を含む。
$(mathbfs,mathbfa)$-矩形不確かさ集合に対して、ロバストな目的に関するいくつかの構造的な観察を確立する。
論文 参考訳(メタデータ) (2022-09-21T18:10:28Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z) - An Adaptive State Aggregation Algorithm for Markov Decision Processes [10.494611365482028]
同様のコスト・ツー・ゴー値の状態を動的にグループ化することで、価値反復更新のコストを削減できるMDPを解くための直感的なアルゴリズムを提案する。
我々のアルゴリズムはほぼ確実に(2varepsilon / (1 - gamma) に収束し、(γ) は割引係数であり、集約された状態は最大で (varepsilon) 異なる。
論文 参考訳(メタデータ) (2021-07-23T07:19:43Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Risk-Sensitive Markov Decision Processes with Combined Metrics of Mean
and Variance [3.062772835338966]
本稿では,長期平均値を持つ無限段階離散時間マルコフ決定過程(MDP)の最適化問題について検討する。
性能差式が導出され、任意の2つの異なるポリシーの下で、MPPの平均分散結合メトリクスの差を定量化することができる。
最適政策の必要条件と決定論的政策の最適性が導出される。
論文 参考訳(メタデータ) (2020-08-09T10:35:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。