論文の概要: On the Fundamental Limitations of Dual Static CVaR Decompositions in Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2507.14005v1
- Date: Fri, 18 Jul 2025 15:18:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 20:43:26.333595
- Title: On the Fundamental Limitations of Dual Static CVaR Decompositions in Markov Decision Processes
- Title(参考訳): マルコフ決定過程における2次元静的CVaR分解の基礎的限界について
- Authors: Mathieu Godbout, Audrey Durand,
- Abstract要約: 本稿では,あるポリシの静的CVaRを評価することを,2つの異なる最小化問題とみなすことができることを示す。
次に、提案したリスク割り当ての観点を利用して、二重CVaR分解による一様最適政策の探索が根本的に制限されていることを示す。
- 参考スコア(独自算出の注目度): 5.66364012434579
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work has shown that dynamic programming (DP) methods for finding static CVaR-optimal policies in Markov Decision Processes (MDPs) can fail when based on the dual formulation, yet the root cause for the failure has remained unclear. We expand on these findings by shifting focus from policy optimization to the seemingly simpler task of policy evaluation. We show that evaluating the static CVaR of a given policy can be framed as two distinct minimization problems. For their solutions to match, a set of ``risk-assignment consistency constraints'' must be satisfied, and we demonstrate that the intersection of the constraints being empty is the source of previously observed evaluation errors. Quantifying the evaluation error as the CVaR evaluation gap, we then demonstrate that the issues observed when optimizing over the dual-based CVaR DP are explained by the returned policy having a non-zero CVaR evaluation gap. We then leverage our proposed risk-assignment perspective to prove that the search for a single, uniformly optimal policy via on the dual CVaR decomposition is fundamentally limited, identifying an MDP where no single policy can be optimal across all initial risk levels.
- Abstract(参考訳): 最近の研究によると、マルコフ決定プロセス(MDP)における静的CVaR最適化ポリシーを見つけるための動的プログラミング(DP)手法は、二重定式化に基づいて失敗する可能性があるが、失敗の根本原因はいまだ不明である。
我々は、政策最適化から、一見単純な政策評価課題へと焦点を移すことで、これらの知見を拡大する。
本稿では,あるポリシの静的CVaRを評価することを,2つの異なる最小化問題とみなすことができることを示す。
彼らの解に一致するためには、'risk-assignment consistency constraints'' の集合を満足させ、空である制約の交叉が、以前に観測された評価誤差の源であることを実証する。
評価誤差をCVaR評価ギャップとして定量化することにより,非ゼロなCVaR評価ギャップを有する返却方針により,両ベースCVaR DPを最適化する場合の問題点が説明できる。
次に、提案したリスク割り当ての観点を利用して、二重CVaR分解による単一の一様最適政策の探索が基本的に制限されていることを証明する。
関連論文リスト
- Policy Testing in Markov Decision Processes [48.642181362172906]
本研究では,不確実性条件下での割引決定プロセス(MDP)におけるポリシーテスト問題について検討する。
目的は、与えられたポリシーの値が数値しきい値を超えるかどうかを決定することである。
論文 参考訳(メタデータ) (2025-05-21T10:13:54Z) - Near-Optimal Policy Identification in Robust Constrained Markov Decision Processes via Epigraph Form [26.01796404477275]
本稿では, 頑健な制約付きMDP (RCMDP) における準最適ポリシーの同定が保証された最初のアルゴリズムを提案する。
最適ポリシーは、一連の環境における最悪のシナリオにおける制約を満たしながら累積コストを最小化する。
論文 参考訳(メタデータ) (2024-08-29T06:37:16Z) - Robust Risk-Sensitive Reinforcement Learning with Conditional Value-at-Risk [23.63388546004777]
我々はロバスト・マルコフ決定過程の下でCVaRに基づくリスク感受性RLのロバスト性を分析する。
実世界の問題における意思決定依存の不確実性の存在を動機として、状態行動依存曖昧性集合による問題を研究する。
論文 参考訳(メタデータ) (2024-05-02T20:28:49Z) - A Reductions Approach to Risk-Sensitive Reinforcement Learning with Optimized Certainty Equivalents [44.09686403685058]
本研究の目的は,累積報酬のリスク尺度を最適化する履歴依存政策を学習することである。
楽観主義に基づくメタアルゴリズムと政策勾配に基づくメタアルゴリズムを提案する。
我々は,提案アルゴリズムが概念実証MDPで最適な履歴依存ポリシーを学習できることを実証的に示す。
論文 参考訳(メタデータ) (2024-03-10T21:45:12Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - High-probability sample complexities for policy evaluation with linear function approximation [88.87036653258977]
本研究では,2つの広く利用されている政策評価アルゴリズムに対して,最適線形係数の予め定義された推定誤差を保証するために必要なサンプル複素量について検討する。
高確率収束保証に縛られた最初のサンプル複雑性を確立し、許容レベルへの最適依存を実現する。
論文 参考訳(メタデータ) (2023-05-30T12:58:39Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Risk-Sensitive Markov Decision Processes with Long-Run CVaR Criterion [9.792654108885676]
本研究では,長期CVaR基準による無限水平離散時間マルコフ決定過程(MDP)について検討する。
長周期CVaRの差分を2つのポリシーで定量化する擬似CVaR差分式を導出する。
本研究では, CVaRを効率的に最適化するポリシ型アルゴリズムを開発し, 混合ポリシ空間において局所最適に収束することを示す。
論文 参考訳(メタデータ) (2022-10-17T04:29:14Z) - Stochastic first-order methods for average-reward Markov decision processes [10.023632561462712]
平均回帰マルコフ決定過程(AMDP)について検討し,政策最適化と政策評価の両面において理論的確証が強い新しい一階法を開発した。
政策評価と政策最適化の部分を組み合わせることで、生成的およびマルコフ的ノイズモデルの両方の下で、AMDPを解くためのサンプル複雑性結果を確立する。
論文 参考訳(メタデータ) (2022-05-11T23:02:46Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。