論文の概要: Bring Your Own (Non-Robust) Algorithm to Solve Robust MDPs by Estimating
The Worst Kernel
- arxiv url: http://arxiv.org/abs/2306.05859v2
- Date: Mon, 12 Feb 2024 11:19:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 00:39:35.785300
- Title: Bring Your Own (Non-Robust) Algorithm to Solve Robust MDPs by Estimating
The Worst Kernel
- Title(参考訳): 最悪のカーネルを推定してロバストなMDPを解くアルゴリズム(Non-Robust)
- Authors: Kaixin Wang, Uri Gadot, Navdeep Kumar, Kfir Levy, Shie Mannor
- Abstract要約: EWoKはRMDPを解くための新しいオンライン手法で、Kernelを見積もって堅牢なポリシーを学ぶ。
EWoKは、学習プロセスにおける完全な柔軟性を維持しながら、エージェントの最悪のシナリオをシミュレートすることで堅牢性を達成する。
簡単なカートポールから高次元DeepMindコントロールスイート環境にまたがる実験により,EWoKの有効性と適用性を示した。
- 参考スコア(独自算出の注目度): 46.373217780462944
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robust Markov Decision Processes (RMDPs) provide a framework for sequential
decision-making that is robust to perturbations on the transition kernel.
However, current RMDP methods are often limited to small-scale problems,
hindering their use in high-dimensional domains. To bridge this gap, we present
EWoK, a novel online approach to solve RMDP that Estimates the Worst transition
Kernel to learn robust policies. Unlike previous works that regularize the
policy or value updates, EWoK achieves robustness by simulating the worst
scenarios for the agent while retaining complete flexibility in the learning
process. Notably, EWoK can be applied on top of any off-the-shelf {\em
non-robust} RL algorithm, enabling easy scaling to high-dimensional domains.
Our experiments, spanning from simple Cartpole to high-dimensional DeepMind
Control Suite environments, demonstrate the effectiveness and applicability of
the EWoK paradigm as a practical method for learning robust policies.
- Abstract(参考訳): Robust Markov Decision Processes (RMDP) は、遷移カーネルの摂動に頑健なシーケンシャルな意思決定のためのフレームワークを提供する。
しかし、現在のRMDP法は小さな問題に限られており、高次元領域での使用を妨げている。
このギャップを埋めるために、我々はRMDPを解決するための新しいオンラインアプローチであるEWoKを紹介します。
ポリシーや価値の更新を規則化する以前の作業とは異なり、EWoKは学習プロセスにおける完全な柔軟性を維持しながら、エージェントの最悪のシナリオをシミュレートすることで堅牢性を達成する。
特に、EWoKは任意のオフザシェルフな非ロバストなRLアルゴリズムの上に適用でき、高次元領域へのスケーリングが容易である。
簡単なカートポールから高次元のDeepMind Control Suite環境にまたがる実験は、ロバストポリシーを学習するための実用的な方法として、EWoKパラダイムの有効性と適用性を示した。
関連論文リスト
- Online MDP with Transition Prototypes: A Robust Adaptive Approach [8.556972018137147]
オンラインのロバストなマルコフ決定プロセス(MDP)について検討し、基礎となる遷移カーネルの有限個のプロトタイプに関する情報を得る。
本稿では,対応するロバストポリシーの性能を保証しつつ,真の基盤となるトランジションカーネルを効率的に同定するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-18T17:19:55Z) - Robust Offline Reinforcement Learning with Linearly Structured $f$-Divergence Regularization [10.465789490644031]
我々は、ロバストな正則化マルコフ決定プロセスのための新しいフレームワーク(d$-RRMDP)を提案する。
オフラインRL設定のために、ロバスト正規化悲観的値イテレーション(R2PVI)と呼ばれるアルゴリズム群を開発する。
論文 参考訳(メタデータ) (2024-11-27T18:57:03Z) - Efficiently Training Deep-Learning Parametric Policies using Lagrangian Duality [55.06411438416805]
制約付きマルコフ決定プロセス(CMDP)は、多くの高度な応用において重要である。
本稿では,パラメトリックアクターポリシーを効率的に訓練するための2段階深度決定規則(TS-DDR)を提案する。
現状の手法と比較して, 解の質を高め, 数桁の計算時間を削減できることが示されている。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Policy Gradient for Rectangular Robust Markov Decision Processes [62.397882389472564]
我々は,長方形ロバストなマルコフ決定過程(MDP)を効率的に解く政策ベース手法であるロバストなポリシー勾配(RPG)を導入する。
結果のRPGは、非ロバストな等価値と同じ時間のデータから推定することができる。
論文 参考訳(メタデータ) (2023-01-31T12:40:50Z) - Policy Gradient in Robust MDPs with Global Convergence Guarantee [13.40471012593073]
Robust Markov決定プロセス(RMDP)は、モデルエラーに直面した信頼性の高いポリシーを計算するための有望なフレームワークを提供する。
本稿では、RMDPの汎用的ポリシー勾配法であるDRPG(Double-Loop Robust Policy Gradient)を提案する。
従来のロバストなポリシー勾配アルゴリズムとは対照的に、DRPGはグローバルな最適ポリシーへの収束を保証するために近似誤差を単調に削減する。
論文 参考訳(メタデータ) (2022-12-20T17:14:14Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - Safe Exploration by Solving Early Terminated MDP [77.10563395197045]
我々は、Early TerminatedP(ET-MDP)の枠組みの下で、安全なRL問題に対処する新しいアプローチを導入する。
まず、ET-MDPを対応するCMDPと同じ最適値関数を持つ非制約アルゴリズムとして定義する。
そこで,文脈モデルに基づく非政治アルゴリズムを提案し,ET-MDPを解き,それに対応するCMDPをより良い性能で解き,学習効率を向上する。
論文 参考訳(メタデータ) (2021-07-09T04:24:40Z) - Robust Reinforcement Learning using Least Squares Policy Iteration with
Provable Performance Guarantees [3.8073142980733]
本稿では,ロバストマルコフ決定過程(RMDP)におけるモデルレス強化学習の課題について述べる。
本稿では、まず、ポリシー評価のための多段階オンラインモデルフリー学習アルゴリズムであるRobust Least Squares Policy Evaluationアルゴリズムを提案する。
次に,ロバスト・ラスト・スクエアズ・ポリシー・イテレーション (RLSPI) アルゴリズムを提案し,ロバスト・ラスト・スクエアズ・ポリシーを最適に学習する。
論文 参考訳(メタデータ) (2020-06-20T16:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。