論文の概要: Towards Safe Continuing Task Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2102.12585v1
- Date: Wed, 24 Feb 2021 22:12:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-26 13:42:40.126039
- Title: Towards Safe Continuing Task Reinforcement Learning
- Title(参考訳): 安全継続課題強化学習に向けて
- Authors: Miguel Calvo-Fullana, Luiz F. O. Chamon, Santiago Paternain
- Abstract要約: 再起動を必要とせずに継続するタスク設定で動作可能なアルゴリズムを提案する。
本手法は,安全な探索を通じて安全な政策を学習する上で,提案手法の能力を示す数値例で評価する。
- 参考スコア(独自算出の注目度): 21.390201009230246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety is a critical feature of controller design for physical systems. When
designing control policies, several approaches to guarantee this aspect of
autonomy have been proposed, such as robust controllers or control barrier
functions. However, these solutions strongly rely on the model of the system
being available to the designer. As a parallel development, reinforcement
learning provides model-agnostic control solutions but in general, it lacks the
theoretical guarantees required for safety. Recent advances show that under
mild conditions, control policies can be learned via reinforcement learning,
which can be guaranteed to be safe by imposing these requirements as
constraints of an optimization problem. However, to transfer from learning
safety to learning safely, there are two hurdles that need to be overcome: (i)
it has to be possible to learn the policy without having to re-initialize the
system; and (ii) the rollouts of the system need to be in themselves safe. In
this paper, we tackle the first issue, proposing an algorithm capable of
operating in the continuing task setting without the need of restarts. We
evaluate our approach in a numerical example, which shows the capabilities of
the proposed approach in learning safe policies via safe exploration.
- Abstract(参考訳): 安全は物理システムにおけるコントローラ設計の重要な特徴である。
制御ポリシーを設計する際、ロバストコントローラや制御障壁関数など、自律性のこの側面を保証するいくつかのアプローチが提案されている。
しかし、これらのソリューションは設計者が利用可能なシステムのモデルに強く依存している。
並列開発として、強化学習はモデルに依存しない制御ソリューションを提供するが、一般に、安全に必要な理論的保証は欠如している。
近年の進歩は、厳密な条件下では強化学習を通じて制御ポリシーを学習でき、これらの要件を最適化問題の制約として適用することで安全性を保証できることを示している。
しかし、学習の安全性から安全に学ぶためには、2つのハードルを克服する必要がある: (i) システムを再初期化することなく、ポリシーを学ばなければならない; (ii) システムのロールアウトはそれ自体で安全である必要がある。
本稿では,再起動を必要とせず,継続するタスク設定で動作可能なアルゴリズムを提案する。
本手法は,安全な探索を通じて安全な政策を学習する上で,提案手法の能力を示す数値例で評価する。
関連論文リスト
- Searching for Optimal Runtime Assurance via Reachability and
Reinforcement Learning [2.422636931175853]
あるプラントのランタイム保証システム(RTA)は、バックアップコントローラで安全性を確保しながら、信頼できないまたは実験的なコントローラの運動を可能にする。
既存のRTA設計戦略は、過度に保守的であることで知られており、原則として、安全違反につながる可能性がある。
本稿では、最適RTA設計問題を定式化し、それを解決するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-06T14:45:57Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - Guided Safe Shooting: model based reinforcement learning with safety constraints [3.8490154494129327]
安全制約の最小限の違反でシステムを制御できるモデルベースのRLアプローチであるGuSS(Guid Safe Shooting)を導入する。
提案する安全プランナは3つあり,1つは単純なランダム・シューティング・ストラテジーに基づくもので,もう1つはより高度な分岐探索アルゴリズムMAP-Elitesに基づくものである。
論文 参考訳(メタデータ) (2022-06-20T12:46:35Z) - Model-Based Safe Reinforcement Learning with Time-Varying State and
Control Constraints: An Application to Intelligent Vehicles [13.40143623056186]
本稿では、時間変化状態と制御制約を持つ非線形システムの最適制御のための安全なRLアルゴリズムを提案する。
多段階の政策評価機構が提案され、時間変化による安全制約の下での政策の安全性リスクを予測し、安全更新を誘導する。
提案アルゴリズムは、シミュレーションされたセーフティガイム環境において、最先端のRLアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2021-12-18T10:45:31Z) - Learning to be Safe: Deep RL with a Safety Critic [72.00568333130391]
安全なRLへの自然な第一のアプローチは、ポリシーの動作に関する制約を手動で指定することである。
我々は,タスクと環境の1つのセットで安全であることを学習し,その学習した直観を用いて将来の行動を制限することを提案する。
論文 参考訳(メタデータ) (2020-10-27T20:53:20Z) - Runtime-Safety-Guided Policy Repair [13.038017178545728]
安全クリティカルな環境下での学習型制御政策におけるポリシー修復の問題点について検討する。
本稿では,安全コントローラが作成したランタイムデータに基づいて,トレーニング済みポリシーを修復することで,制御スイッチングを低減あるいは排除することを提案する。
論文 参考訳(メタデータ) (2020-08-17T23:31:48Z) - Neural Certificates for Safe Control Policies [108.4560749465701]
本稿では,安全かつ目標達成の両立が保証される動的システムの方針を学習するためのアプローチを開発する。
本手法の有効性は, 振り子, カートポール, UAVなどの各種システムにおいて, 安全かつ目標達成的な政策を学習するための手法の有効性を示す。
論文 参考訳(メタデータ) (2020-06-15T15:14:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。