論文の概要: Barrier Certified Safety Learning Control: When Sum-of-Square
Programming Meets Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2206.07915v1
- Date: Thu, 16 Jun 2022 04:38:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-18 12:43:37.511822
- Title: Barrier Certified Safety Learning Control: When Sum-of-Square
Programming Meets Reinforcement Learning
- Title(参考訳): Barrier Certified Safety Learning Control:Sum-of-Square Programming with Reinforcement Learning
- Authors: Hejun Huang, Zhenglong Li, Dongkun Han
- Abstract要約: 本研究は、強化学習よりも制御障壁関数を採用し、安全性を完全に維持するための補償アルゴリズムを提案する。
2次プログラミングに基づく強化学習法と比較して、我々の2次プログラミングに基づく強化学習は、その優位性を示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety guarantee is essential in many engineering implementations.
Reinforcement learning provides a useful way to strengthen safety. However,
reinforcement learning algorithms cannot completely guarantee safety over
realistic operations. To address this issue, this work adopts control barrier
functions over reinforcement learning, and proposes a compensated algorithm to
completely maintain safety. Specifically, a sum-of-squares programming has been
exploited to search for the optimal controller, and tune the learning
hyperparameters simultaneously. Thus, the control actions are pledged to be
always within the safe region. The effectiveness of proposed method is
demonstrated via an inverted pendulum model. Compared to quadratic programming
based reinforcement learning methods, our sum-of-squares programming based
reinforcement learning has shown its superiority.
- Abstract(参考訳): 安全保証は多くのエンジニアリング実装において不可欠である。
強化学習は安全性を高める有用な方法である。
しかし、強化学習アルゴリズムは現実的な操作に対する安全性を完全に保証することはできない。
この問題に対処するため,本研究では強化学習よりも制御障壁関数を採用し,安全性を完全に維持するための補償アルゴリズムを提案する。
具体的には、最適制御器を探索し、同時に学習ハイパーパラメータをチューニングするために2乗の総和プログラミングが利用されている。
したがって、制御アクションは常に安全な領域内であることを約束する。
提案手法の有効性を逆振り子モデルを用いて実証する。
2乗型プログラミングに基づく強化学習法と比較して,2乗型プログラミングに基づく強化学習が優れていることが示された。
関連論文リスト
- Safety through Permissibility: Shield Construction for Fast and Safe Reinforcement Learning [57.84059344739159]
シールドディング」は、強化学習(RL)の安全性を強制する一般的な手法である
安全と遮蔽構造に対処する新しい許容性に基づく枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-29T18:00:21Z) - Learning Control Barrier Functions and their application in Reinforcement Learning: A Survey [11.180978323594822]
強化学習は、新しいロボット行動を開発するための強力な技術である。
安全性の考慮事項を取り入れ、実際のロボットへの迅速な移動を可能にし、生涯の学習を容易にすることを目的としている。
安全な強化学習における有望なアプローチの1つは、制御障壁関数の使用である。
論文 参考訳(メタデータ) (2024-04-22T22:52:14Z) - Reinforcement Learning with Ensemble Model Predictive Safety
Certification [2.658598582858331]
教師なし探索は、安全クリティカルなタスクに強化学習アルゴリズムを配置することを防ぐ。
本稿では,モデルに基づく深層強化学習と管型モデル予測制御を組み合わせた新しいアルゴリズムを提案する。
以上の結果から,従来の強化学習法に比べて制約違反が著しく少ないことが示唆された。
論文 参考訳(メタデータ) (2024-02-06T17:42:39Z) - Approximate Model-Based Shielding for Safe Reinforcement Learning [83.55437924143615]
本稿では,学習したRLポリシーの性能を検証するための,原則的ルックアヘッド遮蔽アルゴリズムを提案する。
我々のアルゴリズムは他の遮蔽手法と異なり、システムの安全性関連力学の事前知識を必要としない。
我々は,国家依存型安全ラベルを持つアタリゲームにおいて,他の安全を意識したアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-27T15:19:45Z) - Adaptive Aggregation for Safety-Critical Control [3.1692938090731584]
安全クリティカル制御のためのアダプティブアグリゲーションフレームワークを提案する。
我々のアルゴリズムは、いくつかのベースラインと比較してデータ効率が良く、安全性違反が少ない。
論文 参考訳(メタデータ) (2023-02-07T16:53:33Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Sample-efficient Safe Learning for Online Nonlinear Control with Control
Barrier Functions [35.9713619595494]
強化学習と連続非線形制御は、複雑なシーケンシャルな意思決定タスクの複数の領域にうまく展開されている。
学習過程の探索特性とモデル不確実性の存在を考えると、それらを安全クリティカルな制御タスクに適用することは困難である。
本稿では,オンライン制御タスクを対象とした,効率のよいエピソード型安全な学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-29T00:54:35Z) - Improving Safety in Deep Reinforcement Learning using Unsupervised
Action Planning [4.2955354157580325]
深層強化学習(Deep RL)における重要な課題の1つは、トレーニングとテストフェーズの両方で安全性を確保することである。
そこで本稿では,オンライン強化学習アルゴリズムの安全性を向上させるために,教師なし行動計画の新たな手法を提案する。
提案アルゴリズムは,離散制御と連続制御の両問題において,複数のベースラインと比較して高い報酬を得られることを示す。
論文 参考訳(メタデータ) (2021-09-29T10:26:29Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z) - Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。
理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文 参考訳(メタデータ) (2020-02-26T00:01:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。