Fugu-MT 論文翻訳(概要): Bring Your Own (Non-Robust) Algorithm to Solve Robust MDPs by Estimating The Worst Kernel

論文の概要: Bring Your Own (Non-Robust) Algorithm to Solve Robust MDPs by Estimating The Worst Kernel

arxiv url: http://arxiv.org/abs/2306.05859v2
Date: Mon, 12 Feb 2024 11:19:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-14 00:39:35.785300
Title: Bring Your Own (Non-Robust) Algorithm to Solve Robust MDPs by Estimating The Worst Kernel
Title（参考訳）: 最悪のカーネルを推定してロバストなMDPを解くアルゴリズム(Non-Robust)
Authors: Kaixin Wang, Uri Gadot, Navdeep Kumar, Kfir Levy, Shie Mannor
Abstract要約: EWoKはRMDPを解くための新しいオンライン手法で、Kernelを見積もって堅牢なポリシーを学ぶ。 EWoKは、学習プロセスにおける完全な柔軟性を維持しながら、エージェントの最悪のシナリオをシミュレートすることで堅牢性を達成する。簡単なカートポールから高次元DeepMindコントロールスイート環境にまたがる実験により,EWoKの有効性と適用性を示した。
参考スコア（独自算出の注目度）: 46.373217780462944
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Robust Markov Decision Processes (RMDPs) provide a framework for sequential decision-making that is robust to perturbations on the transition kernel. However, current RMDP methods are often limited to small-scale problems, hindering their use in high-dimensional domains. To bridge this gap, we present EWoK, a novel online approach to solve RMDP that Estimates the Worst transition Kernel to learn robust policies. Unlike previous works that regularize the policy or value updates, EWoK achieves robustness by simulating the worst scenarios for the agent while retaining complete flexibility in the learning process. Notably, EWoK can be applied on top of any off-the-shelf {\em non-robust} RL algorithm, enabling easy scaling to high-dimensional domains. Our experiments, spanning from simple Cartpole to high-dimensional DeepMind Control Suite environments, demonstrate the effectiveness and applicability of the EWoK paradigm as a practical method for learning robust policies.
Abstract（参考訳）: Robust Markov Decision Processes (RMDP) は、遷移カーネルの摂動に頑健なシーケンシャルな意思決定のためのフレームワークを提供する。しかし、現在のRMDP法は小さな問題に限られており、高次元領域での使用を妨げている。このギャップを埋めるために、我々はRMDPを解決するための新しいオンラインアプローチであるEWoKを紹介します。ポリシーや価値の更新を規則化する以前の作業とは異なり、EWoKは学習プロセスにおける完全な柔軟性を維持しながら、エージェントの最悪のシナリオをシミュレートすることで堅牢性を達成する。特に、EWoKは任意のオフザシェルフな非ロバストなRLアルゴリズムの上に適用でき、高次元領域へのスケーリングが容易である。簡単なカートポールから高次元のDeepMind Control Suite環境にまたがる実験は、ロバストポリシーを学習するための実用的な方法として、EWoKパラダイムの有効性と適用性を示した。

関連論文リスト

Online MDP with Transition Prototypes: A Robust Adaptive Approach [8.556972018137147]
オンラインのロバストなマルコフ決定プロセス(MDP)について検討し、基礎となる遷移カーネルの有限個のプロトタイプに関する情報を得る。本稿では,対応するロバストポリシーの性能を保証しつつ,真の基盤となるトランジションカーネルを効率的に同定するアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-12-18T17:19:55Z)
Robust Offline Reinforcement Learning with Linearly Structured $f$-Divergence Regularization [10.465789490644031]
我々は、ロバストな正則化マルコフ決定プロセスのための新しいフレームワーク(d$-RRMDP)を提案する。オフラインRL設定のために、ロバスト正規化悲観的値イテレーション(R2PVI)と呼ばれるアルゴリズム群を開発する。
論文参考訳（メタデータ） (2024-11-27T18:57:03Z)
Near-Optimal Policy Identification in Robust Constrained Markov Decision Processes via Epigraph Form [26.01796404477275]
本稿では,頑健な制約付きMDP(RCMDP)における準最適ポリシーを同定できる最初のアルゴリズムを提案する。最適ポリシーは、一連の環境における最悪のシナリオにおける制約を満たしながら累積コストを最小化する。
論文参考訳（メタデータ） (2024-08-29T06:37:16Z)
Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。 TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文参考訳（メタデータ） (2024-05-23T18:19:47Z)
Policy Gradient for Rectangular Robust Markov Decision Processes [62.397882389472564]
我々は,長方形ロバストなマルコフ決定過程(MDP)を効率的に解く政策ベース手法であるロバストなポリシー勾配(RPG)を導入する。結果のRPGは、非ロバストな等価値と同じ時間のデータから推定することができる。
論文参考訳（メタデータ） (2023-01-31T12:40:50Z)
Policy Gradient in Robust MDPs with Global Convergence Guarantee [13.40471012593073]
Robust Markov決定プロセス(RMDP)は、モデルエラーに直面した信頼性の高いポリシーを計算するための有望なフレームワークを提供する。本稿では、RMDPの汎用的ポリシー勾配法であるDRPG(Double-Loop Robust Policy Gradient)を提案する。従来のロバストなポリシー勾配アルゴリズムとは対照的に、DRPGはグローバルな最適ポリシーへの収束を保証するために近似誤差を単調に削減する。
論文参考訳（メタデータ） (2022-12-20T17:14:14Z)
Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文参考訳（メタデータ） (2022-09-15T07:22:58Z)
Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文参考訳（メタデータ） (2022-05-30T18:40:28Z)
Safe Exploration by Solving Early Terminated MDP [77.10563395197045]
我々は、Early TerminatedP(ET-MDP)の枠組みの下で、安全なRL問題に対処する新しいアプローチを導入する。まず、ET-MDPを対応するCMDPと同じ最適値関数を持つ非制約アルゴリズムとして定義する。そこで,文脈モデルに基づく非政治アルゴリズムを提案し,ET-MDPを解き,それに対応するCMDPをより良い性能で解き,学習効率を向上する。
論文参考訳（メタデータ） (2021-07-09T04:24:40Z)
Robust Constrained-MDPs: Soft-Constrained Robust Policy Optimization under Model Uncertainty [9.246374019271935]
我々は、制約マルコフ決定過程(CMDP)の理論とロバストマルコフ決定過程(RMDP)理論を融合することを提案する。この定式化により、性能が堅牢なRLアルゴリズムを設計でき、制約満足度を保証することができる。まず、RCMDPの概念に基づく一般問題定式化を提案し、次に最適問題のラグランジアン定式化を提案し、ロバスト制約付きポリシー勾配RLアルゴリズムを導出する。
論文参考訳（メタデータ） (2020-10-10T01:53:37Z)
Robust Reinforcement Learning using Least Squares Policy Iteration with Provable Performance Guarantees [3.8073142980733]
本稿では,ロバストマルコフ決定過程(RMDP)におけるモデルレス強化学習の課題について述べる。本稿では、まず、ポリシー評価のための多段階オンラインモデルフリー学習アルゴリズムであるRobust Least Squares Policy Evaluationアルゴリズムを提案する。次に,ロバスト・ラスト・スクエアズ・ポリシー・イテレーション (RLSPI) アルゴリズムを提案し,ロバスト・ラスト・スクエアズ・ポリシーを最適に学習する。
論文参考訳（メタデータ） (2020-06-20T16:26:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。