論文の概要: Robust Constrained-MDPs: Soft-Constrained Robust Policy Optimization
under Model Uncertainty
- arxiv url: http://arxiv.org/abs/2010.04870v1
- Date: Sat, 10 Oct 2020 01:53:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 23:20:01.347625
- Title: Robust Constrained-MDPs: Soft-Constrained Robust Policy Optimization
under Model Uncertainty
- Title(参考訳): ロバスト制約MDP:モデル不確かさ下でのソフト制約ロバストポリシー最適化
- Authors: Reazul Hasan Russel and Mouhacine Benosman and Jeroen Van Baar
- Abstract要約: 我々は、制約マルコフ決定過程(CMDP)の理論とロバストマルコフ決定過程(RMDP)理論を融合することを提案する。
この定式化により、性能が堅牢なRLアルゴリズムを設計でき、制約満足度を保証することができる。
まず、RCMDPの概念に基づく一般問題定式化を提案し、次に最適問題のラグランジアン定式化を提案し、ロバスト制約付きポリシー勾配RLアルゴリズムを導出する。
- 参考スコア(独自算出の注目度): 9.246374019271935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we focus on the problem of robustifying reinforcement learning
(RL) algorithms with respect to model uncertainties. Indeed, in the framework
of model-based RL, we propose to merge the theory of constrained Markov
decision process (CMDP), with the theory of robust Markov decision process
(RMDP), leading to a formulation of robust constrained-MDPs (RCMDP). This
formulation, simple in essence, allows us to design RL algorithms that are
robust in performance, and provides constraint satisfaction guarantees, with
respect to uncertainties in the system's states transition probabilities. The
need for RCMPDs is important for real-life applications of RL. For instance,
such formulation can play an important role for policy transfer from simulation
to real world (Sim2Real) in safety critical applications, which would benefit
from performance and safety guarantees which are robust w.r.t model
uncertainty. We first propose the general problem formulation under the concept
of RCMDP, and then propose a Lagrangian formulation of the optimal problem,
leading to a robust-constrained policy gradient RL algorithm. We finally
validate this concept on the inventory management problem.
- Abstract(参考訳): 本稿では,モデルの不確実性に対する強化学習(RL)アルゴリズムの堅牢化問題に焦点をあてる。
実際、モデルベースRLの枠組みでは、制約付きマルコフ決定過程(CMDP)とロバストなマルコフ決定過程(RMDP)を融合し、ロバストな制約付きMDP(RCMDP)を定式化することを提案する。
この定式化は本質的には単純であり、性能が堅牢なRLアルゴリズムを設計することができ、システムの状態遷移確率の不確実性に関して制約満足度を保証する。
RLの現実的な応用には,RCMPDの必要性が重要である。
例えば、そのような定式化は、安全クリティカルなアプリケーションにおいてシミュレーションから実世界(Sim2Real)への政策伝達において重要な役割を果たす。
まず、RCMDPの概念に基づく一般問題定式化を提案し、次に最適問題のラグランジアン定式化を提案し、ロバスト制約付きポリシー勾配RLアルゴリズムを提案する。
最終的にこの概念を在庫管理問題で検証する。
関連論文リスト
- Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。
いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。
本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。
TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Robust Risk-Sensitive Reinforcement Learning with Conditional Value-at-Risk [23.63388546004777]
我々はロバスト・マルコフ決定過程の下でCVaRに基づくリスク感受性RLのロバスト性を分析する。
実世界の問題における意思決定依存の不確実性の存在を動機として、状態行動依存曖昧性集合による問題を研究する。
論文 参考訳(メタデータ) (2024-05-02T20:28:49Z) - Provable Risk-Sensitive Distributional Reinforcement Learning with
General Function Approximation [54.61816424792866]
本稿では,リスク感性分布強化学習(RS-DisRL)と静的リプシッツリスク対策(LRM),一般関数近似について紹介する。
モデルに基づく関数近似のためのモデルベース戦略であるtextttRS-DisRL-M と、一般値関数近似のためのモデルフリーアプローチである textttRS-DisRL-V の2つの革新的なメタアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-02-28T08:43:18Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Towards Deployment-Efficient Reinforcement Learning: Lower Bound and
Optimality [141.89413461337324]
展開効率は、強化学習(RL)の多くの実世界の応用にとって重要な基準である
本稿では,「制約付き最適化」の観点から,デプロイ効率の高いRL(DE-RL)の理論的定式化を提案する。
論文 参考訳(メタデータ) (2022-02-14T01:31:46Z) - Robust Entropy-regularized Markov Decision Processes [23.719568076996662]
本稿では,ER-MDPモデルのロバストバージョンについて検討する。
我々は, ER-MDPと頑健な非正規化MDPモデルに係わる重要な特性も設定に保たれることを示す。
私たちは、我々のフレームワークと結果を、価値や(修正された)ポリシーを含む異なるアルゴリズムのスキームに統合する方法を示します。
論文 参考訳(メタデータ) (2021-12-31T09:50:46Z) - Sample Complexity of Robust Reinforcement Learning with a Generative
Model [0.0]
本稿では,モデルに基づく強化学習(RL)アルゴリズムを提案する。
我々は,全変動距離,カイ二乗発散,KL発散の3種類の不確実性集合を考察した。
この結果に加えて,ロバストポリシの利点に関する公式な分析的議論も提示する。
論文 参考訳(メタデータ) (2021-12-02T18:55:51Z) - Risk-Averse Decision Making Under Uncertainty [18.467950783426947]
不確実性条件下での意思決定は、マルコフ決定プロセス(MDP)または部分的に観測可能なMDP(POMDP)を介して記述することができる。
本稿では、動的コヒーレントリスク対策の観点から、MDPとPMDPのポリシーを目的と制約で設計する問題について考察する。
論文 参考訳(メタデータ) (2021-09-09T07:52:35Z) - Lyapunov Robust Constrained-MDPs: Soft-Constrained Robustly Stable
Policy Optimization under Model Uncertainty [9.597991494047871]
我々は、堅牢な制約付きMDP(RCMDP)をもたらす2つのフレームワークを統合することを提案する。
モチベーションは、安全性の制約を満たすと同時に、不確実性をモデル化するための堅牢性を提供するフレームワークを開発することである。
また、RCMDPに対するリアプノフに基づく報酬形成を独立に提案し、安定性と収束性を向上する。
論文 参考訳(メタデータ) (2021-08-05T16:10:28Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。