論文の概要: Observational Robustness and Invariances in Reinforcement Learning via
Lexicographic Objectives
- arxiv url: http://arxiv.org/abs/2209.15320v1
- Date: Fri, 30 Sep 2022 08:53:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 15:07:52.792602
- Title: Observational Robustness and Invariances in Reinforcement Learning via
Lexicographic Objectives
- Title(参考訳): 語彙目標を用いた強化学習における観測的ロバスト性と不変性
- Authors: Daniel Jarne Ornia, Licio Romao, Lewis Hammond, Manuel Mazo Jr.,
Alessandro Abate
- Abstract要約: 強い収束保証を持つポリシー勾配アルゴリズムは通常、堅牢なポリシーを得るために修正される。
本研究では、状態観察がノイズ誘起カーネルによって摂動される部分観測可能なMDPにおけるロバスト性の概念について検討する。
本稿では,どのポリシー勾配アルゴリズムにも適用可能なロバストネス誘導方式を提案する。
- 参考スコア(独自算出の注目度): 60.327955710977555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy robustness in Reinforcement Learning (RL) may not be desirable at any
price; the alterations caused by robustness requirements from otherwise optimal
policies should be explainable and quantifiable. Policy gradient algorithms
that have strong convergence guarantees are usually modified to obtain robust
policies in ways that do not preserve algorithm guarantees, which defeats the
purpose of formal robustness requirements. In this work we study a notion of
robustness in partially observable MDPs where state observations are perturbed
by a noise-induced stochastic kernel. We characterise the set of policies that
are maximally robust by analysing how the policies are altered by this kernel.
We then establish a connection between such robust policies and certain
properties of the noise kernel, as well as with structural properties of the
underlying MDPs, constructing sufficient conditions for policy robustness. We
use these notions to propose a robustness-inducing scheme, applicable to any
policy gradient algorithm, to formally trade off the reward achieved by a
policy with its robustness level through lexicographic optimisation, which
preserves convergence properties of the original algorithm. We test the the
proposed approach through numerical experiments on safety-critical RL
environments, and show how the proposed method helps achieve high robustness
when state errors are introduced in the policy roll-out.
- Abstract(参考訳): 強化学習(RL)における政策ロバストネスは、いかなる価格でも望ましいものではなく、そうでなければ最適な政策からのロバストネス要求による変化は説明可能で定量化されるべきである。
強い収束保証を持つポリシー勾配アルゴリズムは通常、アルゴリズムの保証を守らない方法で堅牢なポリシーを得るように修正され、形式的な堅牢性要求の目的を破る。
本研究では,ノイズ誘起確率核によって状態観測が摂動する部分観測可能なmdpにおけるロバスト性の概念について検討する。
このカーネルによってポリシーがどのように変更されるかを分析することで、最大限堅牢なポリシーの集合を特徴づける。
次に、そのようなロバストなポリシーとノイズカーネルの特定の特性と、基礎となるMDPの構造的特性との接続を確立し、ポリシーのロバスト性に十分な条件を構築する。
これらの概念を用いて,任意のポリシー勾配アルゴリズムに適用可能なロバスト性誘導スキームを提案し,元のアルゴリズムの収束特性を保存する辞書最適化を通じて,そのロバスト性レベルのポリシーが達成した報酬を正式にトレードオフする。
安全クリティカルなRL環境に関する数値実験を通じて提案手法を検証し,提案手法がポリシーロールアウトで状態エラーが発生した場合に高い堅牢性を実現する方法を示す。
関連論文リスト
- Policy Bifurcation in Safe Reinforcement Learning [35.75059015441807]
いくつかのシナリオでは、実行可能なポリシーは不連続または多値であり、不連続な局所最適性の間の補間は必然的に制約違反につながる。
我々は,このような現象の発生機構を最初に同定し,安全RLにおける分岐の存在を厳密に証明するためにトポロジカル解析を用いる。
本稿では,ガウス混合分布をポリシ出力として利用するマルチモーダルポリシ最適化(MUPO)と呼ばれる安全なRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-19T15:54:38Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Reinforcement Learning for Adaptive Optimal Stationary Control of Linear
Stochastic Systems [15.410124023805249]
本稿では,加法雑音と乗法雑音を併用した連続時間線形系の最適定常制御について検討する。
楽観的な最小二乗法に基づく反復法則という,非政治強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-16T09:27:02Z) - Learning Robust Feedback Policies from Demonstrations [9.34612743192798]
閉ループ性能と境界(逆)摂動に対する堅牢性に関する実証可能な保証を示すフィードバック制御ポリシーを学ぶための新しいフレームワークを提案し、分析する。
これらのポリシーは、タスクやコスト関数、システムダイナミクスに関する事前知識のない専門家によるデモンストレーションから学習される。
論文 参考訳(メタデータ) (2021-03-30T19:11:05Z) - On Imitation Learning of Linear Control Policies: Enforcing Stability
and Robustness Constraints via LMI Conditions [3.296303220677533]
線形ポリシーの模倣学習を制約付き最適化問題として定式化する。
線形行列不等式 (lmi) の制約を適合ポリシーに適用することで閉ループ安定性とロバスト性が保証できることを示す。
論文 参考訳(メタデータ) (2021-03-24T02:43:03Z) - Ensuring Monotonic Policy Improvement in Entropy-regularized Value-based
Reinforcement Learning [14.325835899564664]
Entropy-regularized value-based reinforcement learning methodは、ポリシー更新毎にポリシーの単調な改善を保証する。
本稿では,政策変動緩和のためのポリシー更新の度合いを調整するための基準として,この下界を利用した新しい強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-08-25T04:09:18Z) - Robust Reinforcement Learning with Wasserstein Constraint [49.86490922809473]
最適なロバストなポリシーの存在を示し、摂動に対する感度分析を行い、新しいロバストな学習アルゴリズムを設計する。
提案アルゴリズムの有効性はCart-Pole環境で検証する。
論文 参考訳(メタデータ) (2020-06-01T13:48:59Z) - Deep Reinforcement Learning with Robust and Smooth Policy [90.78795857181727]
我々は、国家に対して円滑に振る舞う円滑な政策を学ぶことを提案する。
textbfSmooth textbfRegularized textbfReinforcement textbfLearning(textbfSR2textbfL$)という新しいフレームワークを開発し、スムーズな正規化によってポリシーを訓練する。
このような正規化は、探索空間を効果的に制限し、学習ポリシーの滑らかさを強制する。
論文 参考訳(メタデータ) (2020-03-21T00:10:29Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。