論文の概要: Safe Reinforcement Learning with Dual Robustness
- arxiv url: http://arxiv.org/abs/2309.06835v1
- Date: Wed, 13 Sep 2023 09:34:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-14 14:39:33.245822
- Title: Safe Reinforcement Learning with Dual Robustness
- Title(参考訳): 二重ロバスト性を用いた安全強化学習
- Authors: Zeyang Li, Chuxiong Hu, Yunan Wang, Yujie Yang, Shengbo Eben Li
- Abstract要約: 強化学習(RL)エージェントは敵の障害に対して脆弱である。
安全なRLとロバストなRLを統合するための体系的フレームワークを提案する。
また,デュアル・ロバスト・アクター・クリティック(DRAC)と呼ばれる実装のためのディープRLアルゴリズムを設計する。
- 参考スコア(独自算出の注目度): 10.455148541147796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) agents are vulnerable to adversarial
disturbances, which can deteriorate task performance or compromise safety
specifications. Existing methods either address safety requirements under the
assumption of no adversary (e.g., safe RL) or only focus on robustness against
performance adversaries (e.g., robust RL). Learning one policy that is both
safe and robust remains a challenging open problem. The difficulty is how to
tackle two intertwined aspects in the worst cases: feasibility and optimality.
Optimality is only valid inside a feasible region, while identification of
maximal feasible region must rely on learning the optimal policy. To address
this issue, we propose a systematic framework to unify safe RL and robust RL,
including problem formulation, iteration scheme, convergence analysis and
practical algorithm design. This unification is built upon constrained
two-player zero-sum Markov games. A dual policy iteration scheme is proposed,
which simultaneously optimizes a task policy and a safety policy. The
convergence of this iteration scheme is proved. Furthermore, we design a deep
RL algorithm for practical implementation, called dually robust actor-critic
(DRAC). The evaluations with safety-critical benchmarks demonstrate that DRAC
achieves high performance and persistent safety under all scenarios (no
adversary, safety adversary, performance adversary), outperforming all
baselines significantly.
- Abstract(参考訳): 強化学習(rl)エージェントは、タスクのパフォーマンスを低下させ、安全仕様を損なう可能性がある敵の障害に対して脆弱である。
既存の方法は、敵(例えば安全なRL)が存在しないという仮定の下での安全要件に対処するか、パフォーマンスの敵(例えば堅牢なRL)に対する堅牢性にのみ焦点をあてる。
安全かつ堅牢な1つのポリシーを学ぶことは、未解決の問題である。
難しいのは、最悪の場合、実現可能性と最適性という2つの相互に絡み合う側面に取り組む方法です。
最適性は実行可能領域内でのみ有効であり、最大実行可能領域の識別は最適ポリシーの学習に依存する必要がある。
この問題に対処するために,問題定式化,反復計画,収束解析,実用的なアルゴリズム設計など,安全なRLと堅牢なRLを統合するための体系的フレームワークを提案する。
この統一は制約付き2プレイヤーゼロサムマルコフゲームの上に構築される。
タスクポリシと安全ポリシを同時に最適化する2つのポリシーイテレーションスキームが提案されている。
この反復スキームの収束が証明される。
さらに,drac(dually robust actor-critic)と呼ばれる,実用的な実装のための深いrlアルゴリズムを設計する。
安全性クリティカルなベンチマークによる評価では、DRACはすべてのシナリオ(敵、安全敵、パフォーマンス敵)において高いパフォーマンスと永続的な安全性を達成し、すべてのベースラインを著しく上回っている。
関連論文リスト
- Robust Safe Reinforcement Learning under Adversarial Disturbances [12.145611442959602]
現実世界の制御タスクに強化学習を適用する場合、安全が主な関心事である。
既存の安全な強化学習アルゴリズムは、外部の障害をほとんど考慮しない。
本稿では,最悪のケース障害に対処する堅牢な安全強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-11T05:34:46Z) - Approximate Model-Based Shielding for Safe Reinforcement Learning [83.55437924143615]
本稿では,学習したRLポリシーの性能を検証するための,原則的ルックアヘッド遮蔽アルゴリズムを提案する。
我々のアルゴリズムは他の遮蔽手法と異なり、システムの安全性関連力学の事前知識を必要としない。
我々は,国家依存型安全ラベルを持つアタリゲームにおいて,他の安全を意識したアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-27T15:19:45Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Provable Safe Reinforcement Learning with Binary Feedback [62.257383728544006]
状態, アクションペアの安全性に対するバイナリフィードバックを提供するオフラインオラクルへのアクセスを与えられた場合, 証明可能な安全なRLの問題を考える。
我々は,その設定に対してブラックボックスPAC RLアルゴリズムに与えられた任意のMDP設定に適用可能な,新しいメタアルゴリズムSABREを提案する。
論文 参考訳(メタデータ) (2022-10-26T05:37:51Z) - On the Robustness of Safe Reinforcement Learning under Observational
Perturbations [27.88525130218356]
標準RLタスクのベースライン対向攻撃技術は安全RLには必ずしも有効ではないことを示す。
興味深い反直感的な発見の1つは、最大報酬攻撃は、安全でない振る舞いを誘発し、報酬を維持することで攻撃をステルスティにすることができるため、強いものであることである。
この研究は、RLにおける観測ロバスト性と安全性の間の継承された接続に光を当て、将来の安全なRL研究のための先駆的な研究を提供する。
論文 参考訳(メタデータ) (2022-05-29T15:25:03Z) - Robust Policy Learning over Multiple Uncertainty Sets [91.67120465453179]
強化学習(RL)エージェントは、安全クリティカルな環境の変動に対して堅牢である必要がある。
システム識別とロバストRLの両方の利点を享受するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-02-14T20:06:28Z) - Decision-Making under On-Ramp merge Scenarios by Distributional Soft
Actor-Critic Algorithm [10.258474373022075]
SDSAC(Shield Distributional Soft Actor-critic)と呼ばれるオフライントレーニングとオンライン修正の枠組みに基づくRLベースのエンドツーエンド意思決定方法を提案する。
その結果,SDSACはベースラインアルゴリズムよりも安全性が高く,運転効率も高いことがわかった。
論文 参考訳(メタデータ) (2021-03-08T03:57:32Z) - Safe Distributional Reinforcement Learning [19.607668635077495]
強化学習における安全性(RL)は、自動運転や金融などの多くの分野での訓練と実行の両方において重要な特性です。
分布 RL の設定において制約付き RL の定式化で定式化する。
私たちは、人工および現実ドメインに関する提案を、最新の安全RLアルゴリズムに対して実証的に検証します。
論文 参考訳(メタデータ) (2021-02-26T13:03:27Z) - Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-27T17:54:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。