論文の概要: Solving Non-Rectangular Reward-Robust MDPs via Frequency Regularization
- arxiv url: http://arxiv.org/abs/2309.01107v1
- Date: Sun, 3 Sep 2023 07:34:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 21:36:30.028392
- Title: Solving Non-Rectangular Reward-Robust MDPs via Frequency Regularization
- Title(参考訳): 周波数規則化による非矩形逆ローバストMDPの解法
- Authors: Uri Gadot, Esther Derman, Navdeep Kumar, Maxence Mohamed Elfatihi,
Kfir Levy, Shie Mannor
- Abstract要約: ロバストマルコフ決定過程(RMDP)では、報酬と遷移ダイナミクスは与えられた不確実性集合にあると仮定される。
このいわゆる長方性条件は、単に計算上の問題によって動機付けられている。
政策段階の手法を導入し,その収束性を証明する。
- 参考スコア(独自算出の注目度): 39.740287682191884
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In robust Markov decision processes (RMDPs), it is assumed that the reward
and the transition dynamics lie in a given uncertainty set. By targeting
maximal return under the most adversarial model from that set, RMDPs address
performance sensitivity to misspecified environments. Yet, to preserve
computational tractability, the uncertainty set is traditionally independently
structured for each state. This so-called rectangularity condition is solely
motivated by computational concerns. As a result, it lacks a practical
incentive and may lead to overly conservative behavior. In this work, we study
coupled reward RMDPs where the transition kernel is fixed, but the reward
function lies within an $\alpha$-radius from a nominal one. We draw a direct
connection between this type of non-rectangular reward-RMDPs and applying
policy visitation frequency regularization. We introduce a policy-gradient
method, and prove its convergence. Numerical experiments illustrate the learned
policy's robustness and its less conservative behavior when compared to
rectangular uncertainty.
- Abstract(参考訳): 堅牢マルコフ決定過程(RMDP)では、報酬と遷移ダイナミクスは与えられた不確実性集合にあると仮定される。
RMDPは、その集合から最も敵対的なモデルの下で最大リターンを目標とすることにより、不特定環境に対する性能感度に対処する。
しかし、計算の可搬性を保つため、不確かさ集合は伝統的に各状態に対して独立に構成される。
このいわゆる矩形性条件は、計算上の懸念によってのみ動機づけられている。
その結果、実践的なインセンティブがなく、過度に保守的な行動につながる可能性がある。
本研究では,トランジッションカーネルを固定した結合報酬rmdpについて検討するが,報酬関数は名目上のものから$\alpha$-radius の範囲内にある。
我々は、このタイプの非矩形報酬RMDPと政策訪問頻度正規化の直接接続を描く。
政策段階の手法を導入し,その収束性を証明する。
数値実験では、矩形不確かさと比較して学習方針の頑健さと保守的でない振る舞いが示されている。
関連論文リスト
- Simplification of Risk Averse POMDPs with Performance Guarantees [6.129902017281406]
部分的に観測可能な領域における不確実性の下でのリスク回避意思決定は、AIの基本的問題であり、信頼性の高い自律エージェントにとって不可欠である。
この場合、値関数がリターンの条件値(CVaR)である場合、問題は部分的に観測可能なマルコフ決定プロセス(POMDP)を用いてモデル化される。
POMDPの最適解を計算することは、一般に計算的に計算可能である。
我々は,性能保証を提供しながら,値関数の評価を高速化する簡易化フレームワークを開発した。
論文 参考訳(メタデータ) (2024-06-05T07:05:52Z) - Efficient and Sharp Off-Policy Evaluation in Robust Markov Decision Processes [44.974100402600165]
意思決定プロセス(MDP)に対する最良パラメトリックかつ最悪の摂動の評価について検討する。
我々は、元のMDPからの遷移観測を用いて、それらが同一または異なるポリシーの下で生成されるかのどちらかを判断する。
我々の推定器はウォルドの信頼区間を用いた統計的推測も行う。
論文 参考訳(メタデータ) (2024-03-29T18:11:49Z) - On the Global Convergence of Policy Gradient in Average Reward Markov
Decision Processes [50.68789924454235]
我々は、平均報酬マルコフ決定過程(MDP)の文脈における政策勾配の最初の有限時間大域収束解析を示す。
我々の分析によると、ポリシー勾配は、$Oleft(frac1Tright)$のサブリニアレートで最適ポリシーに収束し、$Oleft(log(T)right)$ regretに変換され、$T$は反復数を表す。
論文 参考訳(メタデータ) (2024-03-11T15:25:03Z) - Off-Policy Evaluation in Markov Decision Processes under Weak
Distributional Overlap [5.0401589279256065]
本稿では,マルコフ決定過程(MDP)における非政治的評価の課題を再検討する。
本稿では,この環境での良好な性能を期待できる2重頑健性(TDR)推定器のクラスを紹介する。
論文 参考訳(メタデータ) (2024-02-13T03:55:56Z) - Solving Long-run Average Reward Robust MDPs via Stochastic Games [6.183091173390457]
ロバストマルコフ決定過程(RMDP)は、各遷移に単一の確率値ではなく不確実性集合を割り当てる。
我々は、有限状態およびアクション空間を持つ長期平均報酬ターンベースのゲームに還元可能であることを示す。
本稿では、長期平均ポリトピックRMDPを解くための新しいポリシー反復アルゴリズムであるRobust Polytopic Policy Iteration(RPPI)を提案する。
論文 参考訳(メタデータ) (2023-12-21T15:00:06Z) - The Curious Price of Distributional Robustness in Reinforcement Learning with a Generative Model [61.87673435273466]
本稿では,強化学習(RL)におけるモデルロバスト性を検討した。
我々は,デプロイ環境が,名目MDPに規定された不確実性に陥る場合に,最悪の場合のパフォーマンスを最適化する政策を学習することを目的とした,分布的に堅牢なマルコフ決定プロセス(RMDP)の枠組みを採用する。
論文 参考訳(メタデータ) (2023-05-26T02:32:03Z) - Twice Regularized Markov Decision Processes: The Equivalence between
Robustness and Regularization [64.60253456266872]
マルコフ決定プロセス(MDP)は、変化または部分的に知られているシステムのダイナミクスを扱うことを目的としている。
規則化されたMDPは、時間的複雑さを損なうことなく、ポリシー学習の安定性を高める。
ベルマン作用素は、収束と一般化を保証する計画と学習スキームを導出することができる。
論文 参考訳(メタデータ) (2023-03-12T13:03:28Z) - Policy Gradient for Rectangular Robust Markov Decision Processes [62.397882389472564]
我々は,長方形ロバストなマルコフ決定過程(MDP)を効率的に解く政策ベース手法であるロバストなポリシー勾配(RPG)を導入する。
結果のRPGは、非ロバストな等価値と同じ時間のデータから推定することができる。
論文 参考訳(メタデータ) (2023-01-31T12:40:50Z) - Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。
強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文 参考訳(メタデータ) (2020-03-05T19:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。