論文の概要: Runtime-Safety-Guided Policy Repair
- arxiv url: http://arxiv.org/abs/2008.07667v1
- Date: Mon, 17 Aug 2020 23:31:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 03:53:58.946803
- Title: Runtime-Safety-Guided Policy Repair
- Title(参考訳): 実行時安全誘導型政策修復
- Authors: Weichao Zhou, Ruihan Gao, BaekGyu Kim, Eunsuk Kang, Wenchao Li
- Abstract要約: 安全クリティカルな環境下での学習型制御政策におけるポリシー修復の問題点について検討する。
本稿では,安全コントローラが作成したランタイムデータに基づいて,トレーニング済みポリシーを修復することで,制御スイッチングを低減あるいは排除することを提案する。
- 参考スコア(独自算出の注目度): 13.038017178545728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of policy repair for learning-based control policies in
safety-critical settings. We consider an architecture where a high-performance
learning-based control policy (e.g. one trained as a neural network) is paired
with a model-based safety controller. The safety controller is endowed with the
abilities to predict whether the trained policy will lead the system to an
unsafe state, and take over control when necessary. While this architecture can
provide added safety assurances, intermittent and frequent switching between
the trained policy and the safety controller can result in undesirable
behaviors and reduced performance. We propose to reduce or even eliminate
control switching by `repairing' the trained policy based on runtime data
produced by the safety controller in a way that deviates minimally from the
original policy. The key idea behind our approach is the formulation of a
trajectory optimization problem that allows the joint reasoning of policy
update and safety constraints. Experimental results demonstrate that our
approach is effective even when the system model in the safety controller is
unknown and only approximated.
- Abstract(参考訳): 安全クリティカルな環境での学習に基づく制御政策におけるポリシー修復の問題点について検討する。
高性能な学習ベースの制御ポリシ(ニューラルネットワークとしてトレーニングされたものなど)とモデルベースの安全コントローラを組み合わせるアーキテクチャを考える。
安全制御装置には、訓練されたポリシーがシステムを安全でない状態に導くかどうかを予測し、必要に応じて制御を引き継ぐ能力が付与される。
このアーキテクチャは、追加の安全保証を提供することができるが、トレーニングされたポリシーと安全コントローラとの断続的かつ頻繁な切り替えは、望ましくない振る舞いと性能の低下をもたらす。
そこで本稿では,セーフティコントローラが生成するランタイムデータに基づいて,トレーニング済みのポリシを「更新」することで,コントロールの切り替えを最小限に抑えることを提案する。
このアプローチの背景にある重要な考え方は、ポリシー更新と安全制約の併用推論を可能にする軌道最適化問題の定式化である。
実験の結果,安全制御装置のシステムモデルが未知で近似のみである場合においても,本手法は有効であることが示された。
関連論文リスト
- Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - ISAACS: Iterative Soft Adversarial Actor-Critic for Safety [0.9217021281095907]
この研究は、ロボットシステムのための堅牢な安全維持コントローラのスケーラブルな合成を可能にする新しいアプローチを導入する。
安全を追求するフォールバックポリシーは、モデルエラーの最悪のケースの実現を促進するために、敵の「混乱」エージェントと共同で訓練される。
学習した制御ポリシーは本質的に安全性を保証するものではないが、リアルタイムの安全フィルタを構築するために使用される。
論文 参考訳(メタデータ) (2022-12-06T18:53:34Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - SAFER: Data-Efficient and Safe Reinforcement Learning via Skill
Acquisition [59.94644674087599]
安全制約下での複雑な制御タスクにおけるポリシー学習を高速化するアルゴリズムであるSAFEty skill pRiors (SAFER)を提案する。
オフラインデータセットでの原則的なトレーニングを通じて、SAFERは安全なプリミティブスキルの抽出を学ぶ。
推論段階では、SAFERで訓練されたポリシーは、安全なスキルを成功のポリシーに組み込むことを学ぶ。
論文 参考訳(メタデータ) (2022-02-10T05:43:41Z) - Safe Reinforcement Learning with Chance-constrained Model Predictive
Control [10.992151305603267]
実世界の強化学習(RL)問題は、エージェントが一連の設計された制約に従うことによって安全に振る舞うことを要求することが多い。
本稿では、モデル予測制御(MPC)に基づく安全ガイドと、修正されたポリシー勾配フレームワークとの結合による安全RLの課題に対処する。
このペナルティがトレーニング後の安全ガイドの除去を可能にすることを理論的に示し、シミュレーター四重項を用いた実験を用いて本手法を実証する。
論文 参考訳(メタデータ) (2021-12-27T23:47:45Z) - Model-Based Safe Reinforcement Learning with Time-Varying State and
Control Constraints: An Application to Intelligent Vehicles [13.40143623056186]
本稿では、時間変化状態と制御制約を持つ非線形システムの最適制御のための安全なRLアルゴリズムを提案する。
多段階の政策評価機構が提案され、時間変化による安全制約の下での政策の安全性リスクを予測し、安全更新を誘導する。
提案アルゴリズムは、シミュレーションされたセーフティガイム環境において、最先端のRLアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2021-12-18T10:45:31Z) - Towards Safe Continuing Task Reinforcement Learning [21.390201009230246]
再起動を必要とせずに継続するタスク設定で動作可能なアルゴリズムを提案する。
本手法は,安全な探索を通じて安全な政策を学習する上で,提案手法の能力を示す数値例で評価する。
論文 参考訳(メタデータ) (2021-02-24T22:12:25Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Enforcing robust control guarantees within neural network policies [76.00287474159973]
本稿では、ニューラルネットワークによってパラメータ化され、ロバスト制御と同じ証明可能なロバスト性基準を適用した、一般的な非線形制御ポリシークラスを提案する。
提案手法は,複数の領域において有効であり,既存のロバスト制御法よりも平均ケース性能が向上し,(非ロバスト)深部RL法よりも最悪のケース安定性が向上した。
論文 参考訳(メタデータ) (2020-11-16T17:14:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。