論文の概要: Efficient Action Robust Reinforcement Learning with Probabilistic Policy
Execution Uncertainty
- arxiv url: http://arxiv.org/abs/2307.07666v2
- Date: Thu, 20 Jul 2023 07:55:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 17:08:01.343553
- Title: Efficient Action Robust Reinforcement Learning with Probabilistic Policy
Execution Uncertainty
- Title(参考訳): 確率的政策実行不確実性を考慮した効果的な行動ロバスト強化学習
- Authors: Guanlin Liu, Zhihan Zhou, Han Liu, Lifeng Lai
- Abstract要約: 本稿では,確率的政策実行の不確実性を考慮したアクションロバストなRLに着目した。
我々は,確率的政策実行の不確実性を伴う行動堅牢なMDPに対する最適政策の存在を確立する。
我々はまた、最適な後悔とサンプルの複雑さを最小限に抑えるAction Robust Reinforcement Learning with Certificates (ARRLC)アルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 43.55450683502937
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robust reinforcement learning (RL) aims to find a policy that optimizes the
worst-case performance in the face of uncertainties. In this paper, we focus on
action robust RL with the probabilistic policy execution uncertainty, in which,
instead of always carrying out the action specified by the policy, the agent
will take the action specified by the policy with probability $1-\rho$ and an
alternative adversarial action with probability $\rho$. We establish the
existence of an optimal policy on the action robust MDPs with probabilistic
policy execution uncertainty and provide the action robust Bellman optimality
equation for its solution. Furthermore, we develop Action Robust Reinforcement
Learning with Certificates (ARRLC) algorithm that achieves minimax optimal
regret and sample complexity. Furthermore, we conduct numerical experiments to
validate our approach's robustness, demonstrating that ARRLC outperforms
non-robust RL algorithms and converges faster than the robust TD algorithm in
the presence of action perturbations.
- Abstract(参考訳): ロバスト強化学習(RL)は、不確実性に直面した最悪のパフォーマンスを最適化する政策を見つけることを目的としている。
本稿では,ポリシーに規定される行為を常に実行する代わりに,エージェントがポリシーに指定されたアクションを確率1〜\rho$で受け取り,確率$\rho$で代替の敵対行為を行う確率的ポリシー実行の不確実性を伴うアクションロバストrlに焦点を当てる。
確率的政策実行の不確実性を持つ行動ロバストmdpに対する最適ポリシーの存在を確立し,その解に対して行動ロバストなベルマン最適性方程式を提供する。
さらに、最小限の後悔とサンプルの複雑さを実現するために、Action Robust Reinforcement Learning with Certificates (ARRLC)アルゴリズムを開発した。
さらに,本手法のロバスト性を検証するために数値実験を行い,arrlcが非ロバストrlアルゴリズムよりも優れ,行動摂動の存在下でロバストtdアルゴリズムよりも高速に収束することを示す。
関連論文リスト
- Model-Based Epistemic Variance of Values for Risk-Aware Policy
Optimization [63.32053223422317]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
特に、MDP上の分布によって誘導される値の分散を特徴付けることに焦点をあてる。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Natural Actor-Critic for Robust Reinforcement Learning with Function
Approximation [20.43657369407846]
本研究では,トレーニングシミュレータとテスト環境間のモデルミスマッチに対して頑健な評価政策を決定することを目的として,ロバスト強化学習(RL)について検討する。
本稿では2つの新しい不確実性集合の定式化を提案し,その1つは二重サンプリングに基づくものであり,もう1つは積分確率計量に基づくものである。
複数の MuJoCo 環境と実世界の TurtleBot ナビゲーションタスクにおいて,提案した RNAC アプローチによって学習されたポリシーの堅牢性を示す。
論文 参考訳(メタデータ) (2023-07-17T22:10:20Z) - Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。
本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文 参考訳(メタデータ) (2023-07-06T08:14:54Z) - Robust Risk-Aware Reinforcement Learning [0.0]
本稿では、リスク認識性能基準の堅牢な最適化のための強化学習(RL)手法を提案する。
ランク依存予測ユーティリティ(RDEU)を用いて政策の価値を評価する。
モデル不確実性に対する最適ポリシーを確固たるものにするために、我々は、その分布ではなく、ワッサーシュタイン球の内部にある最悪の分布によってポリシーを評価する。
論文 参考訳(メタデータ) (2021-08-23T20:56:34Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Bayesian Robust Optimization for Imitation Learning [34.40385583372232]
逆強化学習は、パラメータ化された報酬関数を学習することにより、新しい状態への一般化を可能にする。
既存のIRLに基づく安全な模倣学習アプローチは、maxminフレームワークを使用してこの不確実性に対処する。
BROILは、リターン最大化とリスク最小化の動作を補間する自然な方法を提供する。
論文 参考訳(メタデータ) (2020-07-24T01:52:11Z) - Robust Reinforcement Learning using Least Squares Policy Iteration with
Provable Performance Guarantees [3.8073142980733]
本稿では,ロバストマルコフ決定過程(RMDP)におけるモデルレス強化学習の課題について述べる。
本稿では、まず、ポリシー評価のための多段階オンラインモデルフリー学習アルゴリズムであるRobust Least Squares Policy Evaluationアルゴリズムを提案する。
次に,ロバスト・ラスト・スクエアズ・ポリシー・イテレーション (RLSPI) アルゴリズムを提案し,ロバスト・ラスト・スクエアズ・ポリシーを最適に学習する。
論文 参考訳(メタデータ) (2020-06-20T16:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。