論文の概要: Bring Your Own (Non-Robust) Algorithm to Solve Robust MDPs by Estimating
The Worst Kernel
- arxiv url: http://arxiv.org/abs/2306.05859v2
- Date: Mon, 12 Feb 2024 11:19:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 00:39:35.785300
- Title: Bring Your Own (Non-Robust) Algorithm to Solve Robust MDPs by Estimating
The Worst Kernel
- Title(参考訳): 最悪のカーネルを推定してロバストなMDPを解くアルゴリズム(Non-Robust)
- Authors: Kaixin Wang, Uri Gadot, Navdeep Kumar, Kfir Levy, Shie Mannor
- Abstract要約: EWoKはRMDPを解くための新しいオンライン手法で、Kernelを見積もって堅牢なポリシーを学ぶ。
EWoKは、学習プロセスにおける完全な柔軟性を維持しながら、エージェントの最悪のシナリオをシミュレートすることで堅牢性を達成する。
簡単なカートポールから高次元DeepMindコントロールスイート環境にまたがる実験により,EWoKの有効性と適用性を示した。
- 参考スコア(独自算出の注目度): 46.373217780462944
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robust Markov Decision Processes (RMDPs) provide a framework for sequential
decision-making that is robust to perturbations on the transition kernel.
However, current RMDP methods are often limited to small-scale problems,
hindering their use in high-dimensional domains. To bridge this gap, we present
EWoK, a novel online approach to solve RMDP that Estimates the Worst transition
Kernel to learn robust policies. Unlike previous works that regularize the
policy or value updates, EWoK achieves robustness by simulating the worst
scenarios for the agent while retaining complete flexibility in the learning
process. Notably, EWoK can be applied on top of any off-the-shelf {\em
non-robust} RL algorithm, enabling easy scaling to high-dimensional domains.
Our experiments, spanning from simple Cartpole to high-dimensional DeepMind
Control Suite environments, demonstrate the effectiveness and applicability of
the EWoK paradigm as a practical method for learning robust policies.
- Abstract(参考訳): Robust Markov Decision Processes (RMDP) は、遷移カーネルの摂動に頑健なシーケンシャルな意思決定のためのフレームワークを提供する。
しかし、現在のRMDP法は小さな問題に限られており、高次元領域での使用を妨げている。
このギャップを埋めるために、我々はRMDPを解決するための新しいオンラインアプローチであるEWoKを紹介します。
ポリシーや価値の更新を規則化する以前の作業とは異なり、EWoKは学習プロセスにおける完全な柔軟性を維持しながら、エージェントの最悪のシナリオをシミュレートすることで堅牢性を達成する。
特に、EWoKは任意のオフザシェルフな非ロバストなRLアルゴリズムの上に適用でき、高次元領域へのスケーリングが容易である。
簡単なカートポールから高次元のDeepMind Control Suite環境にまたがる実験は、ロバストポリシーを学習するための実用的な方法として、EWoKパラダイムの有効性と適用性を示した。
関連論文リスト
- Policy Gradient for Rectangular Robust Markov Decision Processes [62.397882389472564]
我々は,長方形ロバストなマルコフ決定過程(MDP)を効率的に解く政策ベース手法であるロバストなポリシー勾配(RPG)を導入する。
結果のRPGは、非ロバストな等価値と同じ時間のデータから推定することができる。
論文 参考訳(メタデータ) (2023-01-31T12:40:50Z) - Policy Gradient in Robust MDPs with Global Convergence Guarantee [13.40471012593073]
Robust Markov決定プロセス(RMDP)は、モデルエラーに直面した信頼性の高いポリシーを計算するための有望なフレームワークを提供する。
本稿では、RMDPの汎用的ポリシー勾配法であるDRPG(Double-Loop Robust Policy Gradient)を提案する。
従来のロバストなポリシー勾配アルゴリズムとは対照的に、DRPGはグローバルな最適ポリシーへの収束を保証するために近似誤差を単調に削減する。
論文 参考訳(メタデータ) (2022-12-20T17:14:14Z) - Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文 参考訳(メタデータ) (2022-10-14T06:53:02Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - Safe Exploration by Solving Early Terminated MDP [77.10563395197045]
我々は、Early TerminatedP(ET-MDP)の枠組みの下で、安全なRL問題に対処する新しいアプローチを導入する。
まず、ET-MDPを対応するCMDPと同じ最適値関数を持つ非制約アルゴリズムとして定義する。
そこで,文脈モデルに基づく非政治アルゴリズムを提案し,ET-MDPを解き,それに対応するCMDPをより良い性能で解き,学習効率を向上する。
論文 参考訳(メタデータ) (2021-07-09T04:24:40Z) - Robust Constrained-MDPs: Soft-Constrained Robust Policy Optimization
under Model Uncertainty [9.246374019271935]
我々は、制約マルコフ決定過程(CMDP)の理論とロバストマルコフ決定過程(RMDP)理論を融合することを提案する。
この定式化により、性能が堅牢なRLアルゴリズムを設計でき、制約満足度を保証することができる。
まず、RCMDPの概念に基づく一般問題定式化を提案し、次に最適問題のラグランジアン定式化を提案し、ロバスト制約付きポリシー勾配RLアルゴリズムを導出する。
論文 参考訳(メタデータ) (2020-10-10T01:53:37Z) - Robust Reinforcement Learning using Least Squares Policy Iteration with
Provable Performance Guarantees [3.8073142980733]
本稿では,ロバストマルコフ決定過程(RMDP)におけるモデルレス強化学習の課題について述べる。
本稿では、まず、ポリシー評価のための多段階オンラインモデルフリー学習アルゴリズムであるRobust Least Squares Policy Evaluationアルゴリズムを提案する。
次に,ロバスト・ラスト・スクエアズ・ポリシー・イテレーション (RLSPI) アルゴリズムを提案し,ロバスト・ラスト・スクエアズ・ポリシーを最適に学習する。
論文 参考訳(メタデータ) (2020-06-20T16:26:50Z) - An Online Method for A Class of Distributionally Robust Optimization
with Non-Convex Objectives [54.29001037565384]
本稿では,オンライン分散ロバスト最適化(DRO)のクラスを解決するための実用的なオンライン手法を提案する。
本研究は,ネットワークの堅牢性向上のための機械学習における重要な応用を実証する。
論文 参考訳(メタデータ) (2020-06-17T20:19:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。