論文の概要: Primal-Only Actor Critic Algorithm for Robust Constrained Average Cost MDPs
- arxiv url: http://arxiv.org/abs/2511.05758v1
- Date: Fri, 07 Nov 2025 23:05:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.563669
- Title: Primal-Only Actor Critic Algorithm for Robust Constrained Average Cost MDPs
- Title(参考訳): ロバスト制約平均コストMPPに対するプリマルオンリーアクター批判アルゴリズム
- Authors: Anirudh Satheesh, Sooraj Sathish, Swetha Ganesh, Keenan Powell, Vaneet Aggarwal,
- Abstract要約: 平均コストCMDPに対するアクター批判アルゴリズムを提案する。
提案手法は,エプシロンの実現可能性とエプシロンの最適性の両方を実現する。
- 参考スコア(独自算出の注目度): 36.27801849118507
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we study the problem of finding robust and safe policies in Robust Constrained Average-Cost Markov Decision Processes (RCMDPs). A key challenge in this setting is the lack of strong duality, which prevents the direct use of standard primal-dual methods for constrained RL. Additional difficulties arise from the average-cost setting, where the Robust Bellman operator is not a contraction under any norm. To address these challenges, we propose an actor-critic algorithm for Average-Cost RCMDPs. We show that our method achieves both \(\epsilon\)-feasibility and \(\epsilon\)-optimality, and we establish a sample complexities of \(\tilde{O}\left(\epsilon^{-4}\right)\) and \(\tilde{O}\left(\epsilon^{-6}\right)\) with and without slackness assumption, which is comparable to the discounted setting.
- Abstract(参考訳): 本研究では,ロバスト制約付き平均コストマルコフ決定過程(RCMDPs)において,ロバスト制約された安全かつ堅牢なポリシーを見つけることの問題点について検討する。
この設定における重要な課題は、強い双対性の欠如であり、制約付きRLに対する標準原始双対メソッドの直接使用を防止することである。
ロバスト・ベルマン作用素がノルムの下での収縮ではないような平均的なコスト設定から、さらなる困難が生じる。
これらの課題に対処するために、平均コストCMDPのためのアクター批判アルゴリズムを提案する。
提案手法は, \(\epsilon\)-feasibility と \(\epsilon\)-optimality の両方を実現し, ディスカウントされた設定に匹敵するスラックネス仮定を伴わずに, \(\tilde{O}\left(\epsilon^{-4}\right)\) および \(\tilde{O}\left(\epsilon^{-6}\right)\) のサンプル複素量を確立する。
関連論文リスト
- Rectified Robust Policy Optimization for Model-Uncertain Constrained Reinforcement Learning without Strong Duality [53.525547349715595]
我々はRectified Robust Policy Optimization (RRPO) と呼ばれる新しいプライマリのみのアルゴリズムを提案する。
RRPOは双対の定式化に頼ることなく、主問題に直接作用する。
我々は、最もよく知られた下界と一致する複雑性を持つ、ほぼ最適な実現可能なポリシーに収束することを示す。
論文 参考訳(メタデータ) (2025-08-24T16:59:38Z) - Provably Sample-Efficient Robust Reinforcement Learning with Average Reward [4.530028899565083]
本稿では,$ell_p$-normと汚染モデルにより特徴付けられる遷移不確実性を持つロバストなマルコフ決定過程(MDP)を設計した新しいアルゴリズムを提案する。
我々のアルゴリズムは、頑健なMDPの事前知識を必要とせずに動作する。
我々の研究は、ロバスト平均報酬RLのサンプル効率の基本的な理論的理解を提供する。
論文 参考訳(メタデータ) (2025-05-18T15:34:45Z) - Sample Complexity of Distributionally Robust Average-Reward Reinforcement Learning [10.708457894356563]
ほぼ最適サンプル複雑性を実現するアルゴリズムを2つ提案する。
両アルゴリズムが最適なポリシを推定するために,$widetildeOleft(|mathbfS||mathbfA| t_mathrmmix2varepsilon-2right)のサンプル複雑性が得られることを証明した。
これはDR平均逆強化学習における最初の有限サンプル収束保証である。
論文 参考訳(メタデータ) (2025-05-15T06:42:25Z) - Finite-Sample Analysis of Policy Evaluation for Robust Average Reward Reinforcement Learning [50.81240969750462]
我々は、ロバスト平均マルコフ決定過程(PMD)における政策評価の第1次有限サンプル解析を提案する。
頑健なベルマン作用素は、慎重に構築された半ノルムの下で収縮し、制御バイアスを持つフレームワークを開発することを示す。
本手法は,ロバストな政策評価とロバストな平均報酬推定のために,$tildemathcalO(epsilon-2)$のオーダー最適サンプル複雑性を実現する。
論文 参考訳(メタデータ) (2025-02-24T03:55:09Z) - Towards a Sharp Analysis of Offline Policy Learning for $f$-Divergence-Regularized Contextual Bandits [49.96531901205305]
我々は$f$-divergence-regularized offline policy learningを分析する。
逆Kullback-Leibler (KL) の発散に対して、単極集中性の下での最初の$tildeO(epsilon-1)$サンプル複雑性を与える。
これらの結果は,$f$-divergence-regularized policy learningの包括的理解に向けて大きな一歩を踏み出したものと考えられる。
論文 参考訳(メタデータ) (2025-02-09T22:14:45Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。