論文の概要: Robust Policy Learning over Multiple Uncertainty Sets
- arxiv url: http://arxiv.org/abs/2202.07013v1
- Date: Mon, 14 Feb 2022 20:06:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-16 14:26:48.691895
- Title: Robust Policy Learning over Multiple Uncertainty Sets
- Title(参考訳): 複数の不確実性集合に対する強固な政策学習
- Authors: Annie Xie, Shagun Sodhani, Chelsea Finn, Joelle Pineau, Amy Zhang
- Abstract要約: 強化学習(RL)エージェントは、安全クリティカルな環境の変動に対して堅牢である必要がある。
システム識別とロバストRLの両方の利点を享受するアルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 91.67120465453179
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) agents need to be robust to variations in
safety-critical environments. While system identification methods provide a way
to infer the variation from online experience, they can fail in settings where
fast identification is not possible. Another dominant approach is robust RL
which produces a policy that can handle worst-case scenarios, but these methods
are generally designed to achieve robustness to a single uncertainty set that
must be specified at train time. Towards a more general solution, we formulate
the multi-set robustness problem to learn a policy robust to different
perturbation sets. We then design an algorithm that enjoys the benefits of both
system identification and robust RL: it reduces uncertainty where possible
given a few interactions, but can still act robustly with respect to the
remaining uncertainty. On a diverse set of control tasks, our approach
demonstrates improved worst-case performance on new environments compared to
prior methods based on system identification and on robust RL alone.
- Abstract(参考訳): 強化学習(RL)エージェントは、安全クリティカルな環境の変動に対して堅牢である必要がある。
システム識別手法は、オンライン体験からバリエーションを推測する方法を提供するが、高速な識別ができない設定では失敗する可能性がある。
もう一つの主要なアプローチはロバストなRLであり、最悪のシナリオを処理できるポリシーを生成するが、これらの手法は一般に列車時に指定しなければならない単一の不確実性セットに対するロバスト性を達成するために設計されている。
より一般的な解に向けて、我々は多重集合のロバスト性問題を定式化し、異なる摂動集合にロバストなポリシーを学ぶ。
そして、システム識別と堅牢なrlの両方の利点を享受するアルゴリズムを設計します。
制御タスクの多種多様なセットにおいて,システム識別とロバストなRLのみに基づく従来の手法と比較して,新しい環境における最悪の性能向上を示す。
関連論文リスト
- Learning Predictive Safety Filter via Decomposition of Robust Invariant
Set [6.94348936509225]
本稿では, RMPCとRL RLの併用による非線形システムの安全フィルタの合成について述べる。
本稿では,ロバストリーチ問題に対する政策アプローチを提案し,その複雑性を確立する。
論文 参考訳(メタデータ) (2023-11-12T08:11:28Z) - Safe Reinforcement Learning with Dual Robustness [10.455148541147796]
強化学習(RL)エージェントは敵の障害に対して脆弱である。
安全なRLとロバストなRLを統合するための体系的フレームワークを提案する。
また,デュアル・ロバスト・アクター・クリティック(DRAC)と呼ばれる実装のためのディープRLアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-09-13T09:34:21Z) - Approximate Model-Based Shielding for Safe Reinforcement Learning [83.55437924143615]
本稿では,学習したRLポリシーの性能を検証するための,原則的ルックアヘッド遮蔽アルゴリズムを提案する。
我々のアルゴリズムは他の遮蔽手法と異なり、システムの安全性関連力学の事前知識を必要としない。
我々は,国家依存型安全ラベルを持つアタリゲームにおいて,他の安全を意識したアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-27T15:19:45Z) - Constrained Decision Transformer for Offline Safe Reinforcement Learning [16.485325576173427]
我々は、新しい多目的最適化の観点から、オフラインセーフなRL問題を考察する。
本稿では,デプロイメント中のトレードオフを動的に調整可能な制約付き決定変換器(CDT)アプローチを提案する。
論文 参考訳(メタデータ) (2023-02-14T21:27:10Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Enforcing robust control guarantees within neural network policies [76.00287474159973]
本稿では、ニューラルネットワークによってパラメータ化され、ロバスト制御と同じ証明可能なロバスト性基準を適用した、一般的な非線形制御ポリシークラスを提案する。
提案手法は,複数の領域において有効であり,既存のロバスト制御法よりも平均ケース性能が向上し,(非ロバスト)深部RL法よりも最悪のケース安定性が向上した。
論文 参考訳(メタデータ) (2020-11-16T17:14:59Z) - Online Safety Assurance for Deep Reinforcement Learning [24.23670300606769]
学習駆動システムの安全なデプロイには,システムの動作が一貫性があるかどうかをリアルタイムで判断できることが必要だ,と我々は主張する。
本稿では,不確かさを推定するために使用する信号によって異なる決定の不確かさを定量化する3つの手法を提案する。
予備的な知見は,決定の不確実性が検出された場合のデフォルトポリシへの移行が,安全を損なうことなくMLを活用することで得られるパフォーマンス上のメリットを享受する鍵であることを示唆している。
論文 参考訳(メタデータ) (2020-10-07T19:54:01Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Falsification-Based Robust Adversarial Reinforcement Learning [13.467693018395863]
Falsification-based RARL (FRARL) は、対人学習における時間論理のファルシフィケーションを統合するための最初の汎用フレームワークである。
実験結果から, ファルシフィケーションをベースとした対向法で訓練したポリシーは, より一般化され, テストシナリオにおける安全仕様の違反が少なくなることが示された。
論文 参考訳(メタデータ) (2020-07-01T18:32:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。