論文の概要: Best-Effort Policies for Robust Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2508.07790v1
- Date: Mon, 11 Aug 2025 09:18:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.027154
- Title: Best-Effort Policies for Robust Markov Decision Processes
- Title(参考訳): ロバストマルコフ決定プロセスのベストプラクティス
- Authors: Alessandro Abate, Thom Badings, Giuseppe De Giacomo, Francesco Fabiano,
- Abstract要約: 我々は、ロバスト MDP (RMDPs) として知られる遷移確率の組によるマルコフ決定過程(MDPs)の共通一般化について研究する。
このような政策を最適な堅牢なベストプラクティス(ORBE)政策と呼ぶ。
我々はORBEポリシーが常に存在することを証明し、その構造を特徴付け、標準的なロバストな値反復よりも小さなオーバヘッドで計算するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 69.60742680559788
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the common generalization of Markov decision processes (MDPs) with sets of transition probabilities, known as robust MDPs (RMDPs). A standard goal in RMDPs is to compute a policy that maximizes the expected return under an adversarial choice of the transition probabilities. If the uncertainty in the probabilities is independent between the states, known as s-rectangularity, such optimal robust policies can be computed efficiently using robust value iteration. However, there might still be multiple optimal robust policies, which, while equivalent with respect to the worst-case, reflect different expected returns under non-adversarial choices of the transition probabilities. Hence, we propose a refined policy selection criterion for RMDPs, drawing inspiration from the notions of dominance and best-effort in game theory. Instead of seeking a policy that only maximizes the worst-case expected return, we additionally require the policy to achieve a maximal expected return under different (i.e., not fully adversarial) transition probabilities. We call such a policy an optimal robust best-effort (ORBE) policy. We prove that ORBE policies always exist, characterize their structure, and present an algorithm to compute them with a small overhead compared to standard robust value iteration. ORBE policies offer a principled tie-breaker among optimal robust policies. Numerical experiments show the feasibility of our approach.
- Abstract(参考訳): 本稿では,マルコフ決定過程(MDPs)の共通一般化を,ロバストMDP(RMDPs)と呼ばれる遷移確率の集合を用いて研究する。
RMDPの標準的な目標は、遷移確率の逆選択の下で期待されるリターンを最大化するポリシーを計算することである。
確率の不確実性がs-正方性と呼ばれる状態間で独立である場合、そのような最適なロバストなポリシーはロバストな値反復を用いて効率的に計算できる。
しかし、最悪の場合と同等であるにもかかわらず、遷移確率の非逆選択の下で異なる期待されるリターンを反映する、複数の最適なロバストなポリシーが存在するかもしれない。
そこで本稿では,ゲーム理論における支配と最善の考え方から着想を得た,RMDPのポリシー選択基準を提案する。
最悪の場合の予測リターンを最大化する政策を求める代わりに、異なる(すなわち完全に逆転しない)移行確率の下での最大リターンを達成するために、政策も必要となる。
このような政策を最適な堅牢なベストプラクティス(ORBE)政策と呼ぶ。
我々はORBEポリシーが常に存在することを証明し、その構造を特徴付け、標準的なロバストな値反復よりも小さなオーバヘッドで計算するアルゴリズムを提案する。
ORBEポリシーは、最適な堅牢なポリシーの中で原則化されたタイブレーカーを提供する。
数値実験により,本手法の有効性が示された。
関連論文リスト
- Mirror Descent Policy Optimisation for Robust Constrained Markov Decision Processes [8.735525389833013]
本稿では、ロバスト制約付きマルコフ決定過程(RCMDP)に対するミラー降下ポリシーの最適化について述べる。
我々は政策勾配法を用いて、制約されたMDPを表すラグランジアン上のポリシー(最大値)と遷移カーネル(最小値)の両方を最適化する。
実験は、制約付きおよび制約なしの最適化におけるミラー降下ポリシー最適化の利点を確認し、ロバストネステストで顕著な改善が観察された。
論文 参考訳(メタデータ) (2025-06-29T09:55:52Z) - Convergence of Policy Mirror Descent Beyond Compatible Function Approximation [66.4260157478436]
我々は,より弱い変動支配を前提とした理論的PMD一般政策クラスを開発し,最良クラス政策への収束を得る。
我々の主観念は、占有度-勾配測度によって誘導される局所ノルムによって誘導される新しい概念を活用する。
論文 参考訳(メタデータ) (2025-02-16T08:05:46Z) - Model-Free, Regret-Optimal Best Policy Identification in Online CMDPs [17.62509045102346]
本稿では,CMDP(Constrained Markov Decision Processs)における最適ポリシー識別問題について考察する。
私たちは、モデルフリーで、後悔の少ないアルゴリズムに興味を持ち、確率の高いほぼ最適なポリシーを特定しています。
オンラインCMDPのサブ線形後悔と制約違反を伴う既存のモデルフリーアルゴリズムでは、最適ポリシーに対する収束保証は提供されない。
論文 参考訳(メタデータ) (2023-09-27T04:33:09Z) - Bounded Robustness in Reinforcement Learning via Lexicographic
Objectives [54.00072722686121]
強化学習における政策の堅牢性は、いかなるコストでも望ましいものではないかもしれない。
本研究では,任意の観測ノイズに対して,政策が最大限に頑健になる方法について検討する。
本稿では,どのような政策アルゴリズムにも適用可能なロバストネス誘導方式を提案する。
論文 参考訳(メタデータ) (2022-09-30T08:53:18Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z) - Randomized Policy Optimization for Optimal Stopping [0.0]
本稿では,ランダム化線形ポリシーに基づく最適停止手法を提案する。
提案手法は最先端手法を著しく上回り得ることを示す。
論文 参考訳(メタデータ) (2022-03-25T04:33:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。