論文の概要: Robust Entropy-regularized Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2112.15364v1
- Date: Fri, 31 Dec 2021 09:50:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-03 13:53:34.257806
- Title: Robust Entropy-regularized Markov Decision Processes
- Title(参考訳): ロバストエントロピー規則化マルコフ決定過程
- Authors: Tien Mai and Patrick Jaillet
- Abstract要約: 本稿では,ER-MDPモデルのロバストバージョンについて検討する。
我々は, ER-MDPと頑健な非正規化MDPモデルに係わる重要な特性も設定に保たれることを示す。
私たちは、我々のフレームワークと結果を、価値や(修正された)ポリシーを含む異なるアルゴリズムのスキームに統合する方法を示します。
- 参考スコア(独自算出の注目度): 23.719568076996662
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic and soft optimal policies resulting from entropy-regularized
Markov decision processes (ER-MDP) are desirable for exploration and imitation
learning applications. Motivated by the fact that such policies are sensitive
with respect to the state transition probabilities, and the estimation of these
probabilities may be inaccurate, we study a robust version of the ER-MDP model,
where the stochastic optimal policies are required to be robust with respect to
the ambiguity in the underlying transition probabilities. Our work is at the
crossroads of two important schemes in reinforcement learning (RL), namely,
robust MDP and entropy regularized MDP. We show that essential properties that
hold for the non-robust ER-MDP and robust unregularized MDP models also hold in
our settings, making the robust ER-MDP problem tractable. We show how our
framework and results can be integrated into different algorithmic schemes
including value or (modified) policy iteration, which would lead to new robust
RL and inverse RL algorithms to handle uncertainties. Analyses on computational
complexity and error propagation under conventional uncertainty settings are
also provided.
- Abstract(参考訳): エントロピー規則化マルコフ決定プロセス(ER-MDP)による確率的かつソフトな最適政策は、探索および模倣学習アプリケーションに望ましい。
このような政策が状態遷移確率に敏感であること、およびそれらの確率の推定が不正確であることに動機づけられ、確率的最適政策が基礎となる遷移確率の曖昧さに対して堅牢であることを要求するer-mdpモデルのロバストなバージョンについて研究する。
我々の研究は、強化学習(RL)における2つの重要なスキーム、すなわち堅牢なMDPとエントロピー正規化されたMDPの交差にある。
我々は, ER-MDPとロバストな非正規化MDPモデルに係わる基本特性も設定に保持し, 堅牢なER-MDP問題を抽出可能であることを示す。
我々は、我々のフレームワークと結果が、新しいロバストなRLアルゴリズムや不確実性を扱う逆RLアルゴリズムにつながる、値や(修正)ポリシーの繰り返しを含む異なるアルゴリズムスキームにどのように統合できるかを示す。
従来の不確実性設定下での計算複雑性と誤差伝播の解析も行う。
関連論文リスト
- Decision-Dependent Distributionally Robust Markov Decision Process
Method in Dynamic Epidemic Control [4.644416582073023]
Susceptible-Exposed-Infectious-Recovered (SEIR) モデルは感染症の拡散を表すために広く用いられている。
本稿では,動的流行制御問題に対処するために,分布ロバストマルコフ決定プロセス(DRMDP)を提案する。
論文 参考訳(メタデータ) (2023-06-24T20:19:04Z) - The Curious Price of Distributional Robustness in Reinforcement Learning with a Generative Model [61.87673435273466]
本稿では,強化学習(RL)におけるモデルロバスト性を検討した。
我々は,デプロイ環境が,名目MDPに規定された不確実性に陥る場合に,最悪の場合のパフォーマンスを最適化する政策を学習することを目的とした,分布的に堅牢なマルコフ決定プロセス(RMDP)の枠組みを採用する。
論文 参考訳(メタデータ) (2023-05-26T02:32:03Z) - Twice Regularized Markov Decision Processes: The Equivalence between
Robustness and Regularization [64.60253456266872]
マルコフ決定プロセス(MDP)は、変化または部分的に知られているシステムのダイナミクスを扱うことを目的としている。
規則化されたMDPは、時間的複雑さを損なうことなく、ポリシー学習の安定性を高める。
ベルマン作用素は、収束と一般化を保証する計画と学習スキームを導出することができる。
論文 参考訳(メタデータ) (2023-03-12T13:03:28Z) - Online Policy Optimization for Robust MDP [17.995448897675068]
強化学習(Reinforcement Learning, RL)は、ビデオゲームやGoなど多くの合成環境において、人間のパフォーマンスを上回っている。
本研究では、未知の名義システムと対話することで、オンラインロバストなマルコフ決定プロセス(MDP)を検討する。
提案手法は,確率的に効率的であるロバストな楽観的ポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-28T05:18:20Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Robust Anytime Learning of Markov Decision Processes [8.799182983019557]
データ駆動型アプリケーションでは、限られたデータから正確な確率を導き出すと統計的エラーが発生する。
不確実なMDP(uMDP)は正確な確率を必要としないが、遷移においていわゆる不確実性集合を用いる。
本稿では,ベイズ的推論スキームとロバストポリシーの計算を組み合わせた,頑健な任意の時間学習手法を提案する。
論文 参考訳(メタデータ) (2022-05-31T14:29:55Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - Sample Complexity of Robust Reinforcement Learning with a Generative
Model [0.0]
本稿では,モデルに基づく強化学習(RL)アルゴリズムを提案する。
我々は,全変動距離,カイ二乗発散,KL発散の3種類の不確実性集合を考察した。
この結果に加えて,ロバストポリシの利点に関する公式な分析的議論も提示する。
論文 参考訳(メタデータ) (2021-12-02T18:55:51Z) - Twice regularized MDPs and the equivalence between robustness and
regularization [65.58188361659073]
報酬を損なうMDPのポリシーイテレーションは、正規化MDPと同じ時間複雑性を持つことを示す。
正規化MDPを2倍の正規化MDPに一般化する。
論文 参考訳(メタデータ) (2021-10-12T18:33:45Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Robust Constrained-MDPs: Soft-Constrained Robust Policy Optimization
under Model Uncertainty [9.246374019271935]
我々は、制約マルコフ決定過程(CMDP)の理論とロバストマルコフ決定過程(RMDP)理論を融合することを提案する。
この定式化により、性能が堅牢なRLアルゴリズムを設計でき、制約満足度を保証することができる。
まず、RCMDPの概念に基づく一般問題定式化を提案し、次に最適問題のラグランジアン定式化を提案し、ロバスト制約付きポリシー勾配RLアルゴリズムを導出する。
論文 参考訳(メタデータ) (2020-10-10T01:53:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。