論文の概要: Safe Reinforcement Learning with Chance-constrained Model Predictive
Control
- arxiv url: http://arxiv.org/abs/2112.13941v1
- Date: Mon, 27 Dec 2021 23:47:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-30 16:37:23.808839
- Title: Safe Reinforcement Learning with Chance-constrained Model Predictive
Control
- Title(参考訳): 確率制約モデル予測制御による安全強化学習
- Authors: Samuel Pfrommer, Tanmay Gautam, Alec Zhou, Somayeh Sojoudi
- Abstract要約: 実世界の強化学習(RL)問題は、エージェントが一連の設計された制約に従うことによって安全に振る舞うことを要求することが多い。
本稿では、モデル予測制御(MPC)に基づく安全ガイドと、修正されたポリシー勾配フレームワークとの結合による安全RLの課題に対処する。
このペナルティがトレーニング後の安全ガイドの除去を可能にすることを理論的に示し、シミュレーター四重項を用いた実験を用いて本手法を実証する。
- 参考スコア(独自算出の注目度): 10.992151305603267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world reinforcement learning (RL) problems often demand that agents
behave safely by obeying a set of designed constraints. We address the
challenge of safe RL by coupling a safety guide based on model predictive
control (MPC) with a modified policy gradient framework in a linear setting
with continuous actions. The guide enforces safe operation of the system by
embedding safety requirements as chance constraints in the MPC formulation. The
policy gradient training step then includes a safety penalty which trains the
base policy to behave safely. We show theoretically that this penalty allows
for the safety guide to be removed after training and illustrate our method
using experiments with a simulator quadrotor.
- Abstract(参考訳): 現実世界の強化学習(rl)問題はしばしば、エージェントが設計された制約に従うことで安全に振る舞うことを要求する。
本稿では,モデル予測制御(MPC)に基づく安全ガイドを,連続動作を伴う線形設定で変更したポリシー勾配フレームワークに結合することにより,安全RLの課題に対処する。
本ガイドでは,MPCの定式化において,安全要件をチャンス制約として組み込むことで,システムの安全な運転を実施できる。
次に、ポリシー勾配トレーニングステップは、ベースポリシーを安全に振る舞うように訓練する安全ペナルティを含む。
このペナルティがトレーニング後の安全ガイドの除去を可能にすることを理論的に示し,シミュレータを用いた実験を用いてその方法を説明する。
関連論文リスト
- A Safety Modulator Actor-Critic Method in Model-Free Safe Reinforcement Learning and Application in UAV Hovering [6.529120583320167]
本稿では、モデルフリーな安全強化学習(RL)における安全性制約と過大評価を解消する安全変調器アクタ・クリティカル(SMAC)手法を提案する。
無人航空機(UAV)ホバリングにおけるシミュレーションと実世界のシナリオ実験の両方で、SMACが安全性の制約を効果的に維持し、メインストリームのベースラインアルゴリズムより優れていることを確認した。
論文 参考訳(メタデータ) (2024-10-09T13:07:24Z) - Sampling-based Safe Reinforcement Learning for Nonlinear Dynamical
Systems [15.863561935347692]
非線形力学系の制御のための安全かつ収束性のある強化学習アルゴリズムを開発した。
制御とRLの交差点における最近の進歩は、ハードセーフティ制約を強制するための2段階の安全フィルタアプローチに従っている。
我々は,古典的な収束保証を享受するRLコントローラを学習する,一段階のサンプリングに基づくハード制約満足度へのアプローチを開発する。
論文 参考訳(メタデータ) (2024-03-06T19:39:20Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - ISAACS: Iterative Soft Adversarial Actor-Critic for Safety [0.9217021281095907]
この研究は、ロボットシステムのための堅牢な安全維持コントローラのスケーラブルな合成を可能にする新しいアプローチを導入する。
安全を追求するフォールバックポリシーは、モデルエラーの最悪のケースの実現を促進するために、敵の「混乱」エージェントと共同で訓練される。
学習した制御ポリシーは本質的に安全性を保証するものではないが、リアルタイムの安全フィルタを構築するために使用される。
論文 参考訳(メタデータ) (2022-12-06T18:53:34Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - SAFER: Data-Efficient and Safe Reinforcement Learning via Skill
Acquisition [59.94644674087599]
安全制約下での複雑な制御タスクにおけるポリシー学習を高速化するアルゴリズムであるSAFEty skill pRiors (SAFER)を提案する。
オフラインデータセットでの原則的なトレーニングを通じて、SAFERは安全なプリミティブスキルの抽出を学ぶ。
推論段階では、SAFERで訓練されたポリシーは、安全なスキルを成功のポリシーに組み込むことを学ぶ。
論文 参考訳(メタデータ) (2022-02-10T05:43:41Z) - Learn Zero-Constraint-Violation Policy in Model-Free Constrained
Reinforcement Learning [7.138691584246846]
本稿では,安全指向エネルギー関数を用いてポリシー更新を限定するセーフセットアクタクリティカル(SSAC)アルゴリズムを提案する。
安全指数は、潜在的に危険な行動のために急速に増加するように設計されている。
我々は、値関数の学習と同様に、モデルのない方法でエネルギー関数を学習できると主張する。
論文 参考訳(メタデータ) (2021-11-25T07:24:30Z) - Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-27T17:54:25Z) - Runtime-Safety-Guided Policy Repair [13.038017178545728]
安全クリティカルな環境下での学習型制御政策におけるポリシー修復の問題点について検討する。
本稿では,安全コントローラが作成したランタイムデータに基づいて,トレーニング済みポリシーを修復することで,制御スイッチングを低減あるいは排除することを提案する。
論文 参考訳(メタデータ) (2020-08-17T23:31:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。