論文の概要: Model-Based Safe Reinforcement Learning with Time-Varying State and
Control Constraints: An Application to Intelligent Vehicles
- arxiv url: http://arxiv.org/abs/2112.11217v1
- Date: Sat, 18 Dec 2021 10:45:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-23 03:15:25.317400
- Title: Model-Based Safe Reinforcement Learning with Time-Varying State and
Control Constraints: An Application to Intelligent Vehicles
- Title(参考訳): 時間変動状態と制御制約を考慮したモデルベース安全強化学習:知的車両への適用
- Authors: Xinglong Zhang, Yaoqian Peng, Biao Luo, Wei Pan, Xin Xu, and Haibin
Xie
- Abstract要約: 本稿では,時変状態と制御制約を持つ非線形システムの最適制御のためのモデルベース安全なRLアルゴリズムを提案する。
多段階の政策評価機構が提案され、時間変化による安全制約の下での政策の安全性リスクを予測し、安全更新を誘導する。
提案アルゴリズムは、シミュレーションされたセーフティガイム環境において、最先端のRLアルゴリズムよりも優れている。
- 参考スコア(独自算出の注目度): 7.185812355920388
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, barrier function-based safe reinforcement learning (RL) with the
actor-critic structure for continuous control tasks has received increasing
attention. It is still challenging to learn a near-optimal control policy with
safety and convergence guarantees. Also, few works have addressed the safe RL
algorithm design under time-varying safety constraints. This paper proposes a
model-based safe RL algorithm for optimal control of nonlinear systems with
time-varying state and control constraints. In the proposed approach, we
construct a novel barrier-based control policy structure that can guarantee
control safety. A multi-step policy evaluation mechanism is proposed to predict
the policy's safety risk under time-varying safety constraints and guide the
policy to update safely. Theoretical results on stability and robustness are
proven. Also, the convergence of the actor-critic learning algorithm is
analyzed. The performance of the proposed algorithm outperforms several
state-of-the-art RL algorithms in the simulated Safety Gym environment.
Furthermore, the approach is applied to the integrated path following and
collision avoidance problem for two real-world intelligent vehicles. A
differential-drive vehicle and an Ackermann-drive one are used to verify the
offline deployment performance and the online learning performance,
respectively. Our approach shows an impressive sim-to-real transfer capability
and a satisfactory online control performance in the experiment.
- Abstract(参考訳): 近年,連続制御タスクのためのアクター批判構造を持つバリア機能に基づく安全強化学習(RL)が注目されている。
安全と収束の保証を備えた準最適制御政策を学ぶことは依然として困難である。
また、安全性に制約のある安全RLアルゴリズムの設計に対処する研究はほとんどない。
本稿では,時間的制約のある非線形システムの最適制御のためのモデルベース安全なRLアルゴリズムを提案する。
提案手法では,制御安全を保証できる新たなバリアベースの制御ポリシ構造を構築する。
政策の安全上の制約下での安全リスクを予測し、政策を安全に更新するための多段階政策評価機構を提案する。
安定性と堅牢性に関する理論的結果が証明されている。
また、アクター批判学習アルゴリズムの収束性も分析する。
提案アルゴリズムの性能は,安全体育館シミュレーション環境において,最先端のrlアルゴリズムを上回っている。
さらに,実世界の2台の知的車両の経路追従・衝突回避問題にもアプローチを適用した。
差動駆動車とアッカーマン駆動車を用いて、オフライン配置性能とオンライン学習性能をそれぞれ検証する。
提案手法は,この実験において印象的なsim-to-real転送機能と良好なオンライン制御性能を示す。
関連論文リスト
- Implicit Safe Set Algorithm for Provably Safe Reinforcement Learning [7.349727826230864]
DRLエージェントのセーフガードを合成するためのモデルフリー安全な制御アルゴリズムである暗黙のセーフセットアルゴリズムを提案する。
提案アルゴリズムは,ブラックボックスの動的関数を問合せするだけで,安全指標(バリア証明書)とその後の安全制御則を合成する。
提案アルゴリズムを最先端のSafety Gymベンチマークで検証し、95% pm 9%$ cumulative rewardを得た上で安全性違反をゼロにする。
論文 参考訳(メタデータ) (2024-05-04T20:59:06Z) - Sampling-based Safe Reinforcement Learning for Nonlinear Dynamical
Systems [15.863561935347692]
非線形力学系の制御のための安全かつ収束性のある強化学習アルゴリズムを開発した。
制御とRLの交差点における最近の進歩は、ハードセーフティ制約を強制するための2段階の安全フィルタアプローチに従っている。
我々は,古典的な収束保証を享受するRLコントローラを学習する,一段階のサンプリングに基づくハード制約満足度へのアプローチを開発する。
論文 参考訳(メタデータ) (2024-03-06T19:39:20Z) - Approximate Model-Based Shielding for Safe Reinforcement Learning [83.55437924143615]
本稿では,学習したRLポリシーの性能を検証するための,原則的ルックアヘッド遮蔽アルゴリズムを提案する。
我々のアルゴリズムは他の遮蔽手法と異なり、システムの安全性関連力学の事前知識を必要としない。
我々は,国家依存型安全ラベルを持つアタリゲームにおいて,他の安全を意識したアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-27T15:19:45Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - ISAACS: Iterative Soft Adversarial Actor-Critic for Safety [0.9217021281095907]
この研究は、ロボットシステムのための堅牢な安全維持コントローラのスケーラブルな合成を可能にする新しいアプローチを導入する。
安全を追求するフォールバックポリシーは、モデルエラーの最悪のケースの実現を促進するために、敵の「混乱」エージェントと共同で訓練される。
学習した制御ポリシーは本質的に安全性を保証するものではないが、リアルタイムの安全フィルタを構築するために使用される。
論文 参考訳(メタデータ) (2022-12-06T18:53:34Z) - Sample-efficient Safe Learning for Online Nonlinear Control with Control
Barrier Functions [35.9713619595494]
強化学習と連続非線形制御は、複雑なシーケンシャルな意思決定タスクの複数の領域にうまく展開されている。
学習過程の探索特性とモデル不確実性の存在を考えると、それらを安全クリティカルな制御タスクに適用することは困難である。
本稿では,オンライン制御タスクを対象とした,効率のよいエピソード型安全な学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-29T00:54:35Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。