論文の概要: Counterexample-Guided Repair of Reinforcement Learning Systems Using Safety Critics
- arxiv url: http://arxiv.org/abs/2405.15430v1
- Date: Fri, 24 May 2024 10:56:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 14:52:03.838779
- Title: Counterexample-Guided Repair of Reinforcement Learning Systems Using Safety Critics
- Title(参考訳): 安全基準を用いた強化学習システムの実証ガイドによる修復
- Authors: David Boetius, Stefan Leue,
- Abstract要約: 安全評論家を活かした強化学習システム修復のための逆例誘導修復アルゴリズムを考案する。
このアルゴリズムは、勾配に基づく制約最適化を用いて、強化学習エージェントと安全評論家を共同で修復する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Naively trained Deep Reinforcement Learning agents may fail to satisfy vital safety constraints. To avoid costly retraining, we may desire to repair a previously trained reinforcement learning agent to obviate unsafe behaviour. We devise a counterexample-guided repair algorithm for repairing reinforcement learning systems leveraging safety critics. The algorithm jointly repairs a reinforcement learning agent and a safety critic using gradient-based constrained optimisation.
- Abstract(参考訳): 訓練された深層強化学習エージェントは、致命的な安全性の制約を満たすことができないかもしれない。
コストのかかる再訓練を避けるため、トレーニング済みの強化学習エージェントを修復して、安全でない行動を回避したいと願う。
安全評論家を活かした強化学習システム修復のための逆例誘導修復アルゴリズムを考案する。
このアルゴリズムは、勾配に基づく制約最適化を用いて、強化学習エージェントと安全評論家を共同で修復する。
関連論文リスト
- Safety through Permissibility: Shield Construction for Fast and Safe Reinforcement Learning [57.84059344739159]
シールドディング」は、強化学習(RL)の安全性を強制する一般的な手法である
安全と遮蔽構造に対処する新しい許容性に基づく枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-29T18:00:21Z) - Reinforcement Learning with Ensemble Model Predictive Safety
Certification [2.658598582858331]
教師なし探索は、安全クリティカルなタスクに強化学習アルゴリズムを配置することを防ぐ。
本稿では,モデルに基づく深層強化学習と管型モデル予測制御を組み合わせた新しいアルゴリズムを提案する。
以上の結果から,従来の強化学習法に比べて制約違反が著しく少ないことが示唆された。
論文 参考訳(メタデータ) (2024-02-06T17:42:39Z) - Learning to Recover for Safe Reinforcement Learning [11.891438526371495]
本稿では,安全な強化学習のための3段階アーキテクチャ,すなわちTU-Recovery Architectureを提案する。
安全評論家と回復政策は、タスクトレーニングの前に学習され、タスクトレーニングの安全性を確保するために安全制御装置を形成する。
論文 参考訳(メタデータ) (2023-09-21T09:17:38Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Barrier Certified Safety Learning Control: When Sum-of-Square
Programming Meets Reinforcement Learning [0.0]
本研究は、強化学習よりも制御障壁関数を採用し、安全性を完全に維持するための補償アルゴリズムを提案する。
2次プログラミングに基づく強化学習法と比較して、我々の2次プログラミングに基づく強化学習は、その優位性を示している。
論文 参考訳(メタデータ) (2022-06-16T04:38:50Z) - Improving Safety in Deep Reinforcement Learning using Unsupervised
Action Planning [4.2955354157580325]
深層強化学習(Deep RL)における重要な課題の1つは、トレーニングとテストフェーズの両方で安全性を確保することである。
そこで本稿では,オンライン強化学習アルゴリズムの安全性を向上させるために,教師なし行動計画の新たな手法を提案する。
提案アルゴリズムは,離散制御と連続制御の両問題において,複数のベースラインと比較して高い報酬を得られることを示す。
論文 参考訳(メタデータ) (2021-09-29T10:26:29Z) - Learning Barrier Certificates: Towards Safe Reinforcement Learning with
Zero Training-time Violations [64.39401322671803]
本稿では、トレーニング時安全違反をゼロとした安全RLアルゴリズムの可能性について検討する。
本稿では、バリア証明書、動的モデル、ポリシーを反復的に学習する、CRABS(Co-trained Barrier Certificate for Safe RL)を提案する。
論文 参考訳(メタデータ) (2021-08-04T04:59:05Z) - Simplifying Deep Reinforcement Learning via Self-Supervision [51.2400839966489]
自己改善強化学習(Self-Supervised Reinforcement Learning, SSRL)は、純粋に監督された損失を伴うポリシーを最適化する単純なアルゴリズムである。
SSRLは、より安定した性能と実行時間の少ない現代アルゴリズムと驚くほど競合することを示す。
論文 参考訳(メタデータ) (2021-06-10T06:29:59Z) - Synthesizing Safe Policies under Probabilistic Constraints with
Reinforcement Learning and Bayesian Model Checking [4.797216015572358]
制約条件下での強化学習者の要求仕様作成のためのフレームワークを提案する。
本研究では,制約満足度に対するエージェントの信頼度が,学習過程における最適化と安全性のバランスをとる上で有用な信号であることを示す。
論文 参考訳(メタデータ) (2020-05-08T08:11:31Z) - Corruption-robust exploration in episodic reinforcement learning [76.19192549843727]
本研究は, システムにおける報酬と遷移確率の両面において, 敵対的腐敗下での多段階・多段階・多段階強化学習について検討した。
我々の枠組みは、汚職の欠如をほぼ最適に後悔する効率的なアルゴリズムをもたらす。
特に,本研究は,根本的強化学習のためのBandit-Feedbackモデルにおいて,純粋にI.d.遷移からの逸脱を保証した最初のサブ線形後悔の保証を提供する。
論文 参考訳(メタデータ) (2019-11-20T03:49:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。