論文の概要: Robust Safe Reinforcement Learning under Adversarial Disturbances
- arxiv url: http://arxiv.org/abs/2310.07207v1
- Date: Wed, 11 Oct 2023 05:34:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 00:14:54.316531
- Title: Robust Safe Reinforcement Learning under Adversarial Disturbances
- Title(参考訳): 敵対的外乱下におけるロバストセーフ強化学習
- Authors: Zeyang Li, Chuxiong Hu, Shengbo Eben Li, Jia Cheng, Yunan Wang
- Abstract要約: 現実世界の制御タスクに強化学習を適用する場合、安全が主な関心事である。
既存の安全な強化学習アルゴリズムは、外部の障害をほとんど考慮しない。
本稿では,最悪のケース障害に対処する堅牢な安全強化学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 12.145611442959602
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety is a primary concern when applying reinforcement learning to
real-world control tasks, especially in the presence of external disturbances.
However, existing safe reinforcement learning algorithms rarely account for
external disturbances, limiting their applicability and robustness in practice.
To address this challenge, this paper proposes a robust safe reinforcement
learning framework that tackles worst-case disturbances. First, this paper
presents a policy iteration scheme to solve for the robust invariant set, i.e.,
a subset of the safe set, where persistent safety is only possible for states
within. The key idea is to establish a two-player zero-sum game by leveraging
the safety value function in Hamilton-Jacobi reachability analysis, in which
the protagonist (i.e., control inputs) aims to maintain safety and the
adversary (i.e., external disturbances) tries to break down safety. This paper
proves that the proposed policy iteration algorithm converges monotonically to
the maximal robust invariant set. Second, this paper integrates the proposed
policy iteration scheme into a constrained reinforcement learning algorithm
that simultaneously synthesizes the robust invariant set and uses it for
constrained policy optimization. This algorithm tackles both optimality and
safety, i.e., learning a policy that attains high rewards while maintaining
safety under worst-case disturbances. Experiments on classic control tasks show
that the proposed method achieves zero constraint violation with learned
worst-case adversarial disturbances, while other baseline algorithms violate
the safety constraints substantially. Our proposed method also attains
comparable performance as the baselines even in the absence of the adversary.
- Abstract(参考訳): 安全は、特に外乱の存在下で、現実世界の制御タスクに強化学習を適用する際の主要な関心事である。
しかし、既存の安全強化学習アルゴリズムは外乱をほとんど考慮せず、実際の適用性や堅牢性を制限している。
この課題に対処するために,最悪のケース障害に対処する堅牢な安全強化学習フレームワークを提案する。
まず,ロバストな不変量集合,すなわちセーフ集合の部分集合に対して,永続的安全性が内部状態に対してのみ可能であるようなポリシー反復スキームを提案する。
ハミルトン・ジャコビ到達可能性分析において、主人公(つまり制御入力)が安全性を維持し、敵(つまり外部障害)が安全性を壊そうとする安全値関数を活用することで、2人プレイのゼロサムゲームを確立することが鍵となる。
本稿では,提案したポリシー反復アルゴリズムが最大ロバスト不変量集合に単調に収束することを証明する。
第2に,提案手法を制約付き強化学習アルゴリズムに統合し,ロバストな不変集合を同時に合成し,制約付きポリシー最適化に利用する。
このアルゴリズムは最適性と安全性の両面、すなわち最悪の状況下での安全性を維持しながら高い報酬を得る政策を学ぶ。
古典的な制御タスクの実験により,本手法は学習した最悪の対向外乱に対してゼロ制約違反を達成し,他のベースラインアルゴリズムは安全制約を実質的に破ることを示した。
また,提案手法は,敵がいない場合でも,ベースラインとして同等の性能が得られる。
関連論文リスト
- Latent Safety-Constrained Policy Approach for Safe Offline Reinforcement Learning [7.888219789657414]
安全オフライン強化学習(RL)において、安全制約を厳格に遵守しつつ累積報酬を最大化する政策を開発することが目的である。
本稿では, 条件付き変分オートエンコーダを用いて, 保守的に安全な政策を学習することから始まる新しいアプローチを用いて, この問題に対処する。
我々は、これを制約付き逆戻り最大化問題とみなし、この政策は、推定された潜伏安全性の制約に従い、報酬を最適化することを目的としている。
論文 参考訳(メタデータ) (2024-12-11T22:00:07Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - SCPO: Safe Reinforcement Learning with Safety Critic Policy Optimization [1.3597551064547502]
本研究では,新しい安全強化学習アルゴリズム,セーフティ・クリティカル・ポリシー・オプティマイゼーションを導入する。
本研究では,安全制約に違反して得られる報酬を無効化する機構である安全評論家を定義した。
理論的解析により,提案アルゴリズムは安全制約への付着と報酬の最大化との間のトレードオフを自動的にバランスできることが示された。
論文 参考訳(メタデータ) (2023-11-01T22:12:50Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Safe Reinforcement Learning with Dual Robustness [10.455148541147796]
強化学習(RL)エージェントは敵の障害に対して脆弱である。
安全なRLとロバストなRLを統合するための体系的フレームワークを提案する。
また,デュアル・ロバスト・アクター・クリティック(DRAC)と呼ばれる実装のためのディープRLアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-09-13T09:34:21Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Safe Policy Improvement in Constrained Markov Decision Processes [10.518340300810504]
本稿では,形式的要件の集合からの報酬形成と安全なポリシー更新という2つの課題を解くことで,合成問題の解決法を提案する。
前者に対しては,タスク仕様に準拠したスカラー報酬信号を定義する自動報酬生成手法を提案する。
後者では,高信頼度保証を伴う安全な方法でポリシーが改善されることを保証するアルゴリズムを導入する。
論文 参考訳(メタデータ) (2022-10-20T13:29:32Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Enforcing robust control guarantees within neural network policies [76.00287474159973]
本稿では、ニューラルネットワークによってパラメータ化され、ロバスト制御と同じ証明可能なロバスト性基準を適用した、一般的な非線形制御ポリシークラスを提案する。
提案手法は,複数の領域において有効であり,既存のロバスト制御法よりも平均ケース性能が向上し,(非ロバスト)深部RL法よりも最悪のケース安定性が向上した。
論文 参考訳(メタデータ) (2020-11-16T17:14:59Z) - Verifiably Safe Exploration for End-to-End Reinforcement Learning [17.401496872603943]
本稿では,視覚的入力によるエンドツーエンドポリシーの形式的安全性制約の実施に向けた最初のアプローチを提案する。
厳密な制約の存在下で安全に探索することの難しさを強調する新しいベンチマークで評価されている。
論文 参考訳(メタデータ) (2020-07-02T16:12:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。